Что нужно сделать для обработки несбалансированных классов в случае классификации нескольких классов - PullRequest
0 голосов
/ 04 января 2019

У меня есть набор данных, который состоит из пользовательских билетов, который является случайным по шаблону и около 56 столбцов в нем, и это текстовые данные. Моя задача состоит в том, чтобы создать модель и обучить ее, чтобы идентифицировать и предсказать, к какой категории относятся билеты, и у нас там более 100 категорий. Предположим, что категория A составляет 70000, а другая - 50,0000, а для какой-то категории количество заявок уменьшается до 1, это несбалансированные данные? Если это то, как я должен обработать это для классификации нескольких классов и до сих пор обрабатывать эти данные, которые, я думаю, не сбалансированы, я использую SMOTE, но точность снижается. Что мне делать в этом случае?

Я уже пробовал классификатор DecisionTree и сейчас работаю над регрессией логизита.

1 Ответ

0 голосов
/ 04 января 2019

1) Используйте F1-показатель в качестве показателя оценки в таких случаях (сильно несбалансированные данные).

2) Использовать стратифицированную выборку при разделении train_test.

3) Попробуйте классификатор "один против остальных".

4) Используйте алгоритмы, такие как xgboost, lightgbm и catboost.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...