Кроме того, вы изменили параметр maxFieldLength в solrconfig.xml?Я тестирую индексирование Библии, на 25 МБ данных и с maxFieldLength 10 000, который является значением по умолчанию, только первые 10 000 токенов когда-либо анализируются, что приводит к приблизительно 2000 уникальных терминов для моего документа.
Если вы используете Lucene напрямую, есть пара параметров для maxFieldLength, у вас может быть «неограниченный» и, следовательно, получение всего.Проверьте JavaDocs для того, как установить maxFieldLength.