Правильно ли использовать оба параметра алгоритма и конвейер imblearn одновременно для обработки дисбаланса класса?
Давайте уделим минуту, чтобы подумать, что это может означать, и если это действительно имеет смысл.
Specifi c алгоритмы (или настройки алгоритмов) для обработки дисбаланса класса, естественно, ожидают некоторого фактический дисбаланс в данных.
Теперь, если вы уже искусственно сбалансировали свои данные (с SMOTE, недосэмплинг большинства класса и т. Д. c), с чем столкнутся ваши алгоритмы в конце день - это сбалансированный набор данных, а не несбалансированный. Излишне говорить, что эти алгоритмы не могут «знать», что этот баланс в конечных данных, которые они видят, является искусственным; так что, с их точки зрения, нет дисбаланса - следовательно, нет необходимости в каком-либо специальном рецепте для запуска.
Итак, дело не в том, что это неправильно , но в таком в этом случае эти специфические c алгоритмы / настройки на самом деле не будут полезны, в том смысле, что у них не будет ничего лишнего в отношении обработки дисбаланса классов.
Цитирование из более старого ответа моего (совершенно другой вопрос, но общая идея держится горизонтально):
Поле глубоких нейронных сетей еще (очень) молодое, и это правда, что оно еще не установило sh его руководящие принципы "наилучшей практики"; добавьте тот факт, что благодаря удивительному сообществу, в реализациях с открытым исходным кодом есть все виды инструментов, и вы можете легко оказаться в (по общему признанию) заманчивой ситуации, смешивая вещи только потому, что они оказываются доступными. Я не обязательно говорю, что это то, что вы пытаетесь сделать здесь - я просто призываю к большей осторожности при объединении идей, которые, возможно, не были предназначены для совместной работы ...