CountVectorizer не рассчитывает соответствующие функции - PullRequest
0 голосов
/ 22 мая 2019

Я делаю классификацию текста на диалекте.И я использую наивный байес и countvectorizer.Я обнаружил, что многие относящиеся к диалекту особенности не рассматриваются.то, что считают более, является числом очень частых слов, которые являются общими для всех диалектов.Как я могу придать абсолютный вес (самый высокий приоритет) словарю (который имеет только определенный диалект), который находится в тексте, и, следовательно, текст будет классифицирован как этот диалект?вместо того, чтобы считать эти другие частые слова и назначать их на диалект.

Пример:

Предположим, у меня есть корпус, содержащий эти 4 диалекта, и после тренировки корпус размером 20К (каждый диалект имеет 5К твитов).Я тестирую следующий произвольный твит:

Вы X, и тогда мы подумаем об этом

Теперь предположим, что X - это слово, используемое только диалектомО. Тем не менее, остальные слова также разделены между всеми 4 диалектами.И после предсказания случилось так, что текст на диалекте B, потому что если вы посчитаете оставшиеся слова, он оказался более распространенным на диалекте B.

Как я могу это исправить?как я могу сделать его классифицированным как диалект A и отдать приоритет X?

...