Должен ли я конвертировать весь документ или одно предложение, используя countVectorizer? - PullRequest
0 голосов
/ 20 мая 2019

Я делаю классификацию текста на 4 диалектах и ​​использую countVectorizer и naive bayes.У меня проблемы с точностью, поэтому я думал вместо того, чтобы давать твиты countvectorizer (около 20K из них, 4K каждый твит), будет ли иметь значение, если я просто дам ему 4 документа, каждый документ содержит все твиты, связанные с однимдиалекте?Таким образом, у меня была бы матрица (4XnumberOfFeatures). Но потом, когда я собираюсь проверить, я собираюсь дать ей один твит за раз.

другой вопрос: когда я уменьшу количество функций в countVectorizerНа каком основании он собирается удалить функции?

...