Я работаю над проектом, который требует от меня разработки модели, в которой в качестве входных данных используется файл журнала, выводится метка, идентифицирующая журнал, аналогично классификации документов. Я создал словарь всех слов, которые могут встречаться в файлах журналов, и размер словаря составлял примерно 2–2,5 тыс. Однако количество слов в файле журнала действительно велико (около 0,3–0,5 миллиона). Существуют ли методы сокращения возможностей, которые позволяют мне использовать такие модели последовательности, как LSTM, для таких больших документов, учитывая, что словарный запас невелик?