Я делаю классификацию текста на диалекте.И я использую наивный байес и countvectorizer.Я обнаружил, что многие относящиеся к диалекту особенности не рассматриваются.то, что считают более, является числом очень частых слов, которые являются общими для всех диалектов.Как я могу придать абсолютный вес (самый высокий приоритет) словарю (который имеет только определенный диалект), который находится в тексте, и, следовательно, текст будет классифицирован как этот диалект?вместо того, чтобы считать эти другие частые слова и назначать их на диалект.
Пример:
Предположим, у меня есть корпус, содержащий эти 4 диалекта, и после тренировки корпус размером 20К (каждый диалект имеет 5К твитов).Я тестирую следующий произвольный твит:
Вы X, и тогда мы подумаем об этом
Теперь предположим, что X - это слово, используемое только диалектомО. Тем не менее, остальные слова также разделены между всеми 4 диалектами.И после предсказания случилось так, что текст на диалекте B, потому что если вы посчитаете оставшиеся слова, он оказался более распространенным на диалекте B.
Как я могу это исправить?как я могу сделать его классифицированным как диалект A и отдать приоритет X?