У меня есть набор данных, который состоит из пользовательских билетов, который является случайным по шаблону и около 56 столбцов в нем, и это текстовые данные. Моя задача состоит в том, чтобы создать модель и обучить ее, чтобы идентифицировать и предсказать, к какой категории относятся билеты, и у нас там более 100 категорий. Предположим, что категория A составляет 70000, а другая - 50,0000, а для какой-то категории количество заявок уменьшается до 1, это несбалансированные данные? Если это то, как я должен обработать это для классификации нескольких классов и до сих пор обрабатывать эти данные, которые, я думаю, не сбалансированы, я использую SMOTE, но точность снижается. Что мне делать в этом случае?
Я уже пробовал классификатор DecisionTree и сейчас работаю над регрессией логизита.