Руководство

Сначала я делаю все шаги вручную, чтобы убедиться, что все работает как положено:

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import roc_auc_score

X, y = make_classification(n_samples=10000, n_features=40,
                           n_clusters_per_class=10,
                           n_informative=25,
                           random_state=12, shuffle=False)

logit = LogisticRegression(solver="saga",random_state=12).fit(X,y)
logit_yhat = logit.predict_proba(X)[:,1]
print("logit",roc_auc_score(y, logit_yhat))
randf = RandomForestClassifier(n_estimators=10,max_depth=5,min_samples_split=10, random_state=12).fit(X,y)
randf_yhat = randf.predict_proba(X)[:,1]
print("randf",roc_auc_score(y, randf_yhat))
gaunb = GaussianNB().fit(X,y)
gaunb_yhat = gaunb.predict_proba(X)[:,1]
print("gaunb",roc_auc_score(y, gaunb_yhat))
gbcdt = GradientBoostingClassifier(random_state=12).fit(X,y)
gbcdt_yhat = gbcdt.predict_proba(X)[:,1]
print("gbcdt",roc_auc_score(y, gbcdt_yhat))

scores = np.transpose(np.array((logit_yhat, randf_yhat, gaunb_yhat, gbcdt_yhat)))
aggregator = LogisticRegression(solver="saga",random_state=12).fit(scores, y)
aggregator_yhat = aggregator.predict_proba(scores)[:,1]
print("aggregator",aggregator.coef_,roc_auc_score(y, aggregator_yhat))

Это печатает:

logit 0.6913163859713081
randf 0.7871255096874669
gaunb 0.7032834038916749
gbcdt 0.8527915275109933
aggregator [[-3.95961856  5.70858186 -2.45036885 13.3983472 ]] 0.8799606190093959

Пока все хорошо.

Использование конвейеров

Теперь я создаю конвейер и проверяю, что он делает то же самое:

from sklearn.base import BaseEstimator, TransformerMixin, clone
class PredictProbaTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, clf):
        self.clf = clf

    def transform(self, X):
        "Return predict_proba(X)."
        print("transform")
        return self.clf.predict_proba(X)[:,[1]]

    def fit_transform(self, X, y=None, **fit_params):
        print("fit_transform")
        return self.clf.fit(X, y, **fit_params).predict_proba(X)[:,[1]]

from sklearn.pipeline import Pipeline, FeatureUnion
pipe = Pipeline([("stack",FeatureUnion([
    ("logit",PredictProbaTransformer(clone(logit))),
    ("randf",PredictProbaTransformer(clone(randf))),
    ("gaunb",PredictProbaTransformer(clone(gaunb))),
    ("gbcdt",PredictProbaTransformer(clone(gbcdt))),
])), ("aggregator",LogisticRegression(solver="saga",random_state=12))]).fit(X,y)
pipe_yhat = pipe.predict_proba(X)[:,1]
print("pipe",pipe.named_steps["aggregator"].coef_,roc_auc_score(y, pipe_yhat))

Это печатает:

pipe [[-3.95961856  5.70858186 -2.45036885 13.3983472 ]] 0.8799606190093959

Идентично строке aggregator в "раздел «Руководство» - хорошо!

Перекрестная проверка

Когда я пытаюсь провести перекрестную проверку pipe, я получаю некоторую странность:

from sklearn.model_selection import cross_validate
pipe_scores = pd.DataFrame(cross_validate(
    pipe, X=X, y=y, return_train_score=True, cv=10, scoring="roc_auc"))

Печать 10 раз(потому что cv=10) эти 12 строк:

fit_transform --- 4 times
transform     --- 8 times

Поскольку он вызывает fit_transform 4 раза для 4 классификаторов в stack для каждой фазы обучения), а затем вызывает transform 4 раза дляте же 4 классификатора в данных test , а затем снова еще 4 раза на данных поезда (даже еслиуже сделал это в фазе поезда).

Самое главное : pipe_scores.describe() это

        fit_time  score_time  test_score  train_score
count  10.000000   10.000000   10.000000    10.000000
mean    3.329516    0.006074    0.482034     0.895046
std     0.068609    0.000594    0.081499     0.006657
min     3.212703    0.005362    0.299673     0.886333
25%     3.276795    0.005602    0.451310     0.891166
50%     3.350762    0.006122    0.504630     0.892991
75%     3.370433    0.006331    0.519399     0.898570
max     3.425937    0.007302    0.586310     0.906820

Довольно странно, все train_scores превышают 88%, которые я получил в своем ручном запуске.

Однако, , почему test_score s кажутся совершенно случайными?! (среднее значение имедиана составляет около 50%, что соответствует классификатору «броска монеты».

обходной путь , чтобы избежать этой странности, составляет случайных рядов

либо , передавая shuffle=True (вместо False) в make_classification
или передача cv=StratifiedKFold(n_splits=10,shuffle=True,random_state=12) (вместо 10) в cross_validate.

Тогда баллы равны

        fit_time  score_time  test_score  train_score
count  10.000000   10.000000   10.000000    10.000000
mean    3.400829    0.005355    0.774932     0.887762
std     0.125579    0.000444    0.011324     0.003578
min     3.211147    0.004896    0.763047     0.883219
25%     3.333121    0.005074    0.767166     0.884810
50%     3.376660    0.005153    0.772864     0.886907
75%     3.484209    0.005516    0.781219     0.890338
max     3.602676    0.006194    0.799907     0.893941

PS.shuffle in make_classification влияет на оба столбца и строк, тогда как в StratifiedKFold это влияет только на строк , а не столбцы .Только строка shuffle имеет значение: если я перетасовываю столбцы на

X = X[:, np.random.permutation(X.shape[1])]

после make_classification(... shuffle=False), я получаю идентичные GaussianNB и GradientBoostingClassifier и незаметно отличается LogisticRegression и RandomForestClassifier, а cross_validate возвращает случайное test_scores.

Mikhail Berlinkov · Answer 1 · 07 декабря 2018

Относительно того, почему все train_scores превышают 88%, это связано с тем, что при перекрестной проверке вы тренируетесь на 0,9 ваших тренировочных данных.Таким образом, ваши модели могут (более) лучше соответствовать этим данным.Что касается того, почему test_score так мало, когда вы не перемешиваете функции, я полагаю, что это происходит потому, что при перекрестной проверке без перемешивания не все (из 10) кластеров присутствуют в наборе обучающих данных (что составляет 0,9 от всех данных), как внабор данных они также не перетасованы.

Перекрестная проверка стека классификаторов без перемешивания данных возвращает мусор

Руководство

Использование конвейеров

Перекрестная проверка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Перекрестная проверка стека классификаторов без перемешивания данных возвращает мусор

Руководство

Использование конвейеров

Перекрестная проверка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы