Коэффициент настройки случайной выборки при поиске по сетке в несбалансированном наборе данных - PullRequest
0 голосов
/ 06 февраля 2019

Как указано в заголовке, я хотел бы выполнить поиск по сетке по отношению моего случайного значения ниже сэмплера.Я хотел бы попробовать отношения 10, 15 и 20, где ratio = 10 - это номер переопределенного большинства или число классов меньшинства.

Пример: если класс меньшинства имеет 10 элементов,у большинства 1000, при соотношении 5 у меня будет 10 меньшинств и 50 большинства.Это то, что предлагает документацию Random Under Sampler.

https://imbalanced -learn.readthedocs.io / en / стабильный / сгенерированный / imblearn.under_sampling.RandomUnderSampler.html

from imblearn.pipeline import make_pipeline as imbalanced_make_pipeline
from sklearn.model_selection import GridSearchCV 

pipe = imbalanced_make_pipeline(RandomUnderSampler(),
                            SMOTE(),
                            RandomForestClassifier())

gsc = GridSearchCV(estimator=pipe, param_grid= {'smote__ratio': [5, 10, 15],
                                            'randomforestclassifier__criterion': ["entropy"], 
                                            'randomforestclassifier__max_depth': np.arange(10,30,5), 
                                            'randomforestclassifier__min_samples_leaf': np.arange(5,15,3)},
               scoring='f1',cv=5, verbose=2)

grid_result = gsc.fit(X, y)

Я получаю этоошибка:

AttributeError: 'NoneType' object has no attribute 'items'

Кто-нибудь может мне помочь, пожалуйста?Благодарю.

...