Я делаю классификацию текста на диалекте и использую countVectorizer с наивными байесами.Количество функций слишком много, я собрал 20 тысяч твитов с 4 диалектами.каждый диалект имеет 5000 твитов.И общее количество функций 43K.Я думал, может быть, поэтому у меня может быть переоснащение.Потому что при тестировании на новых данных точность сильно упала.Итак, как я могу исправить количество функций, чтобы избежать перегрузки данных?