Disable feature validation on sklearn predict prob. (#5953)

* Fix issue when scikit learn interface receives transformed inputs.
2020-07-29 19:26:44 +08:00
parent 18349a7ccf
commit f5fdcbe194
2 changed files with 33 additions and 1 deletions
--- a/python-package/xgboost/sklearn.py
+++ b/python-package/xgboost/sklearn.py
@@ -909,7 +909,7 @@ class XGBClassifier(XGBModel, XGBClassifierBase):
            'Label encoder is not defined.  Returning class probability.')
        return class_probs

-    def predict_proba(self, data, ntree_limit=None, validate_features=True,
+    def predict_proba(self, data, ntree_limit=None, validate_features=False,
                      base_margin=None):
        """
        Predict the probability of each `data` example being of a given class.
--- a/tests/python/test_with_sklearn.py
+++ b/tests/python/test_with_sklearn.py
@@ -888,6 +888,38 @@ def test_parameter_validation():
    assert len(output) == 0


+@pytest.mark.skipif(**tm.no_pandas())
+def test_pandas_input():
+    import pandas as pd
+    from sklearn.calibration import CalibratedClassifierCV
+    rng = np.random.RandomState(1994)
+
+    kRows = 100
+    kCols = 6
+
+    X = rng.randint(low=0, high=2, size=kRows*kCols)
+    X = X.reshape(kRows, kCols)
+
+    df = pd.DataFrame(X)
+    feature_names = []
+    for i in range(1, kCols):
+        feature_names += ['k'+str(i)]
+
+    df.columns = ['status'] + feature_names
+
+    target = df['status']
+    train = df.drop(columns=['status'])
+    model = xgb.XGBClassifier()
+    model.fit(train, target)
+    clf_isotonic = CalibratedClassifierCV(model,
+                                          cv='prefit', method='isotonic')
+    clf_isotonic.fit(train, target)
+    assert isinstance(clf_isotonic.calibrated_classifiers_[0].base_estimator,
+                      xgb.XGBClassifier)
+    np.testing.assert_allclose(np.array(clf_isotonic.classes_),
+                               np.array([0, 1]))
+
+
 class TestBoostFromPrediction(unittest.TestCase):
    def run_boost_from_prediction(self, tree_method):
        from sklearn.datasets import load_breast_cancer