иметь дело с несбалансированными данными классификации? - PullRequest
0 голосов
/ 16 марта 2020

Я строю прогностическую модель, по которой прогнозирую, будет ли клиент снова подписываться или нет. У меня уже есть набор данных, и проблема в том, что он несбалансирован (НЕТ больше, чем ДА). Я считаю, что моя модель смещена, но когда я проверяю точность на тренировочном наборе и тестируемом наборе с предсказаниями, точность действительно близка (0,8879 на тренировочном наборе и 0,8868 на тестовом наборе). Причина, по которой я в замешательстве, заключается в том, что если моя модель смещена, почему у меня близка точность тренировок и тестов? Или моя модель не смещена?

1 Ответ

0 голосов
/ 16 марта 2020

Быстрый ответ: Да, ваша модель, скорее всего, все предскажет как Majority .

. Давайте подумаем об этом проще. У вас есть оптимизатор в процессе обучения, который пытается максимизировать точность (минимизировать ошибочную классификацию). Предположим, у вас есть обучающий набор из 1000 изображений, и у вас есть только 10 тигров в этом наборе данных, и вы намерены выучить классификатор для различения guish тигров и неигровых.

Что такое оптимизатор очень вероятно сделать, это предсказать всегда не тигра для каждого изображения. Почему? потому что это гораздо более простая модель и ее легче (вероятно, в более простом пространстве) достичь, а также она достигает точности 99%!

Я предлагаю вам прочитать больше о imbalanced data проблемах (эта, кажется, хороший вариант для начала https://machinelearningmastery.com/what-is-imbalanced-classification/) В зависимости от решаемой проблемы вы можете попробовать down-sampling или over-sampling или более продвинутые решения, такие как изменение функций и метрик потерь, использование F1 или AU C и / или ранжирование вместо классификации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...