Сокращение возможностей для классификации журналов - PullRequest
0 голосов
/ 17 июня 2019

Я работаю над проектом, который требует от меня разработки модели, в которой в качестве входных данных используется файл журнала, выводится метка, идентифицирующая журнал, аналогично классификации документов. Я создал словарь всех слов, которые могут встречаться в файлах журналов, и размер словаря составлял примерно 2–2,5 тыс. Однако количество слов в файле журнала действительно велико (около 0,3–0,5 миллиона). Существуют ли методы сокращения возможностей, которые позволяют мне использовать такие модели последовательности, как LSTM, для таких больших документов, учитывая, что словарный запас невелик?

...