Как мне оценить размер индекса Lucene? - PullRequest
8 голосов
/ 15 сентября 2008

Есть ли известная математическая формула, которую я могу использовать для оценки размера нового индекса Люцена? Я знаю, сколько полей я хочу проиндексировать, и размер каждого поля. И я знаю, сколько предметов будет проиндексировано. Итак, когда они обрабатываются Lucene, как они переводятся в байты?

Ответы [ 3 ]

2 голосов
/ 16 сентября 2008

Вот документация в формате индекса люцены . Основной файл - это составной индекс (файл .cfs). Если у вас есть статистика по срокам, вы можете получить оценку размера файла .cfs, Обратите внимание, что это сильно варьируется в зависимости от используемого анализатора и определяемых вами типов полей.

1 голос
/ 08 октября 2010

Индекс хранит каждый «токен» или текстовое поле и т. Д. Только один раз ... поэтому размер зависит от природы индексируемого материала. Добавьте к этому все, что хранится также. Один хороший подход может состоять в том, чтобы взять образец и проиндексировать его, и использовать его для экстраполяции для полной исходной коллекции. Однако отношение размера индекса к размеру источника также со временем уменьшается, поскольку слова уже присутствуют в индексе, поэтому вы можете захотеть сделать выборку приличным процентом от оригинала.

0 голосов
/ 15 сентября 2008

Я думаю, что это также связано с частотой каждого термина (т. Е. Индекс в 10000 экземпляров одинаковых терминов должен быть намного меньше, чем индекс в 10000 полностью уникальных терминов).

Кроме того, вероятно, есть небольшая зависимость от того, используете ли вы Term Vectors или нет, и, конечно, храните ли вы поля или нет. Можете ли вы предоставить более подробную информацию? Можете ли вы проанализировать термин частота ваших исходных данных?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...