Я делаю проект по классификации несбалансированного набора данных, и я использовал BalancedRandomForestClassifier
в imblearn
. Однако я запутался в стратегии выборки, используемой BalancedRandomForestClassifier
после визуализации всех деревьев в лесу.
Я узнал из статьи Использование случайного леса для изучения несбалансированных данных , что:
"Для каждой итерации в случайном лесу нарисуйте bootstrap образец из класс меньшинства. Случайным образом вытяните то же количество случаев с заменой из класса большинства. "
С моей точки зрения, я думаю, что это должно быть, например, у меня есть 55 примеров в классе меньшинства Я должен сначала взять 55 образцов с заменой из класса меньшинства. Затем я должен взять 55 образцов из класса большинства с заменой, чтобы сформировать обучающий набор для одного дерева, который содержит 55 образцов из класса меньшинства и 55 образцов из класса большинства.
Однако в визуализации я обнаружил, что для каждого дерева может быть 50 выборок из меньшинства и 60 выборок из большинства, или некоторые другие комбинации, которые составляют 110 (55 + 55). Так какова стратегия выборки BalancedRandomForestClassifier
в imblearn
?