Существует ли правило для определения размера словаря для анализа настроений с массивными наборами данных? - PullRequest
0 голосов
/ 15 апреля 2019

Я буду выполнять анализ настроений в художественной литературе. Я буду работать с 300 книгами по 350 страниц. Могу ли я ограничить размер словаря, игнорируя менее частые слова? Если да, то каково правило определения размера?

1 Ответ

0 голосов
/ 15 апреля 2019

Я не верю, что есть какое-то такое "правило".Если вы планируете использовать глубокое обучение, я думаю, что единственным ограничивающим фактором является то, сколько слов вы можете позволить себе тренировать из-за нехватки памяти / времени.Но, тем не менее, вы можете достичь почти максимальной точности, ограничив подмножество наиболее распространенных слов.Я думаю, что около 50000 слов было бы разумным началом, если вы имеете дело с одним языком.Оттуда вы можете расширить словарный запас, если вам нужна лучшая производительность.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...