Я делаю классификацию текста на 4 диалектах с countVectorizer и наивным байесом.У меня снижение точности при проверке модели.Поэтому я ищу, как его увеличить.Я думал, что может быть переоснащение.И способ сделать это - уменьшить количество функций.Я сделал это с max_features=20000
, пока это было до 45000
функций. Однако: Я посмотрел остальные функции, и countvectorizer удалил все важные функции и сохранил наиболее частые.Но это не совсем выбор функции .Так как же сделать выбор функций, выбрав наиболее подходящие функции для каждого диалекта?