Как бороться с неравномерным количеством образцов в классификации? - PullRequest
0 голосов
/ 29 сентября 2018

Предположим, у нас есть 2 метки: 0 и 1 .

Номер данных с меткой 0 равен 1000 но данные с меткой 1 просто 100 .

В этой ситуации тренировка классификации будет смещением к результату метки 0.

Что можно сделать в этом сценарии?

Можем ли мы генерировать семплов вручную , соответствующих метке 1?

Если мы можем сделать это, как проверить , что сгенерированные образцы обладают такими же свойствами / характеристиками , что и исходные данные?

1 Ответ

0 голосов
/ 29 сентября 2018

См. эта статья .Речь идет о методе, называемом SMOTE , который означает Техника передискретизации синтетического меньшинства .В основном, если у вас есть данные, распределенные следующим образом (небольшое количество красных точек, большее количество зеленых точек): enter image description here

Вы синтезируете новые сэмплы вокруг существующих: enter image description here

Этот метод является одним из наиболее часто используемых и более подробно описан в статье, приведенной выше.Существуют и другие более простые методы, такие как удаление некоторых точек данных из класса большинства или дублирование некоторых из классов меньшинства.

Изображения взяты из статьи.

...