Максимизация точности прогнозирования мажоритарного класса в несбалансированном наборе данных - PullRequest
0 голосов
/ 25 июня 2018

Говоря о несбалансированных наборах данных, в большинстве статей упоминается максимальное прогнозирование класса меньшинства (например, для обнаружения мошенничества). У меня несбалансированный набор данных (соотношение примерно 1:20). где я заинтересован в достижении максимальной точности прогнозирования для большинства класса . Моя работа на Python. Возможные решения, которые я исследовал:

  • Дискретизация по классу меньшинства
  • Изменение матрицы потерь / затрат для некоторых моделей классификации

Каковы плюсы и минусы использования каждого метода? Могу ли я попробовать другие методы?

1 Ответ

0 голосов
/ 11 июля 2018

Вы думаете об этом неправильно.Если бы все, что вас заботило, было классом большинства, вы могли бы просто предсказать все как принадлежащее классу большинства.Вы бы получили 100% правильно.У вас будет много ложных срабатываний, но вас это не волнует, верно?

Ах, если вам небезразличны ложные срабатывания, то это означает, что вы все равно заботитесь о классе меньшинства.Чем больше вещей в классе меньшинства вы прогнозируете правильно, тем меньше у вас ложных срабатываний.

Это две стороны одной медали.

...