Стратегия выборки BalancedRandomForestClassifier в imblearn - PullRequest
0 голосов
/ 13 апреля 2020

Я делаю проект по классификации несбалансированного набора данных, и я использовал BalancedRandomForestClassifier в imblearn. Однако я запутался в стратегии выборки, используемой BalancedRandomForestClassifier после визуализации всех деревьев в лесу.

Я узнал из статьи Использование случайного леса для изучения несбалансированных данных , что:

"Для каждой итерации в случайном лесу нарисуйте bootstrap образец из класс меньшинства. Случайным образом вытяните то же количество случаев с заменой из класса большинства. "

С моей точки зрения, я думаю, что это должно быть, например, у меня есть 55 примеров в классе меньшинства Я должен сначала взять 55 образцов с заменой из класса меньшинства. Затем я должен взять 55 образцов из класса большинства с заменой, чтобы сформировать обучающий набор для одного дерева, который содержит 55 образцов из класса меньшинства и 55 образцов из класса большинства.

Однако в визуализации я обнаружил, что для каждого дерева может быть 50 выборок из меньшинства и 60 выборок из большинства, или некоторые другие комбинации, которые составляют 110 (55 + 55). Так какова стратегия выборки BalancedRandomForestClassifier в imblearn?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...