Помогает ли SMOTE работать с небольшими несбалансированными наборами данных? - PullRequest
0 голосов
/ 20 марта 2020

Я работаю над проблемой мультиклассовой классификации. Набор данных состоит из 6 объектов, а целевые метки - 22 (несбалансированные).

Метка дается для каждой 5-й строки. Рассмотрим 5 строк как один образец. Это означает, что каждому образцу назначена метка. Я использую lstm для этого типа структуры данных.

Данный набор данных имеет около 3000 строк, что означает 600 выборок. Поскольку распределение классов несбалансировано, я решил использовать SMOTE для повышающей дискретизации экземпляров классов меньшинства. Я хотел бы знать, решает ли этот подход мою проблему дисбаланса классов, а также избавляется от проблемы подгонки для небольшого набора данных, поскольку SMOTE теперь увеличил размер моего набора данных.

Любые входные данные будут полезны и приветствуются.

...