Я применил модель ComplementNB sckit learn на моем 70000 и сбалансированном обучающем наборе, чтобы выполнить задачу классификации 20. Это задача классификации документов.
Проблема, с которой я сталкиваюсь сейчас, заключается в том, что точность составляет около 62% для наборов проверки, однако, когда я применил модель и загрузил ее на тестовом наборе размера 30000, это приведет только к56%. Что может вызвать снижение точности?
Сначала я сохраняю данные в виде разреженной матрицы tfidf. А затем применить SelectKbest с f_classif, чтобы уменьшить размер