Question

Я делаю классификацию текста на 4 диалектах и использую countVectorizer и naive bayes.У меня проблемы с точностью, поэтому я думал вместо того, чтобы давать твиты countvectorizer (около 20K из них, 4K каждый твит), будет ли иметь значение, если я просто дам ему 4 документа, каждый документ содержит все твиты, связанные с однимдиалекте?Таким образом, у меня была бы матрица (4XnumberOfFeatures). Но потом, когда я собираюсь проверить, я собираюсь дать ей один твит за раз.

другой вопрос: когда я уменьшу количество функций в countVectorizerНа каком основании он собирается удалить функции?

Должен ли я конвертировать весь документ или одно предложение, используя countVectorizer?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Должен ли я конвертировать весь документ или одно предложение, используя countVectorizer?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы