Вам следует остерегаться документов с более чем 10000 токенами - это внутренний предел реализации, равный gensim
, и токены за пределами 10000-й позиции в одном документе будут игнорироваться.
Но следует ли разбивать Документы на 1000-токеновые блоки полностью зависят от того, что лучше всего подходит для ваших конкретных данных и целей. Если у вас есть причина рассмотреть это - возможно, вы хотите получить результаты диапазонов субдокументов? - тогда вы должны попробовать, сравнить результаты с альтернативой и использовать то, что работает лучше. Там нет общего ответа.