Я делаю классификацию текста на 4 диалектах и использую countVectorizer и naive bayes.У меня проблемы с точностью, поэтому я думал вместо того, чтобы давать твиты countvectorizer (около 20K из них, 4K каждый твит), будет ли иметь значение, если я просто дам ему 4 документа, каждый документ содержит все твиты, связанные с однимдиалекте?Таким образом, у меня была бы матрица (4XnumberOfFeatures). Но потом, когда я собираюсь проверить, я собираюсь дать ей один твит за раз.
другой вопрос: когда я уменьшу количество функций в countVectorizerНа каком основании он собирается удалить функции?