Я думаю, что это также связано с частотой каждого термина (т. Е. Индекс в 10000 экземпляров одинаковых терминов должен быть намного меньше, чем индекс в 10000 полностью уникальных терминов).
Кроме того, вероятно, есть небольшая зависимость от того, используете ли вы Term Vectors или нет, и, конечно, храните ли вы поля или нет. Можете ли вы предоставить более подробную информацию? Можете ли вы проанализировать термин частота ваших исходных данных?