Несбалансированная проблема обучения - из образца против проверки - PullRequest
0 голосов
/ 10 июля 2019

Я тренируюсь в трех классах с одним классом доминирующего большинства около 80% и двумя другими даже.Я могу обучить модель, используя методы недостаточной выборки / передискретизации, чтобы получить точность проверки 67%, что уже было бы неплохо для моих целей.Проблема заключается в том, что эта производительность присутствует только в сбалансированных данных проверки, и после того, как я проверил выборку с несбалансированными данными, она, похоже, обнаружила тенденцию к равномерному прогнозированию класса.Я также пытался использовать взвешенные функции потерь, но не испытывал радости от выборки.Есть ли хороший способ убедиться в том, что эффективность проверки преобразуется?Я попытался использовать auroc для успешной проверки модели, но опять же сильные показатели присутствуют только в сбалансированных данных проверки.

Методы повторной выборки, которые я пробовал: SMOTE избыточная выборка и случайная недостаточная выборка.

1 Ответ

0 голосов
/ 24 июля 2019

Если я правильно понял, возможно, вы ищете измерение производительности и более качественные результаты классификации для наборов данных о дисбалансе.

В одиночку измеряете производительность с использованием точности в случае, когда наборы данных о дисбалансе обычно высоки, а вводящий в заблуждение класс и меньшинство могут бытьполностью игнорируется Вместо этого используйте f1-оценка, точность / отзыв.

Для моей проектной работы с несбалансированными наборами данных я использовал методы выборки SMOTE вместе с перекрестной проверкой K-Fold.

Метод перекрестной проверки гарантирует, что модель получает правильные шаблоны из данных, ион не поднимает слишком много шума.

Ссылки: Какова правильная процедура разделения Наборов данных для задачи классификации?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...