Question

Есть ли известная математическая формула, которую я могу использовать для оценки размера нового индекса Люцена? Я знаю, сколько полей я хочу проиндексировать, и размер каждого поля. И я знаю, сколько предметов будет проиндексировано. Итак, когда они обрабатываются Lucene, как они переводятся в байты?

Yuval F · Answer 1 · 16 сентября 2008

Вот документация в формате индекса люцены . Основной файл - это составной индекс (файл .cfs). Если у вас есть статистика по срокам, вы можете получить оценку размера файла .cfs, Обратите внимание, что это сильно варьируется в зависимости от используемого анализатора и определяемых вами типов полей.

alchemical · Answer 2 · 08 октября 2010

Индекс хранит каждый «токен» или текстовое поле и т. Д. Только один раз ... поэтому размер зависит от природы индексируемого материала. Добавьте к этому все, что хранится также. Один хороший подход может состоять в том, чтобы взять образец и проиндексировать его, и использовать его для экстраполяции для полной исходной коллекции. Однако отношение размера индекса к размеру источника также со временем уменьшается, поскольку слова уже присутствуют в индексе, поэтому вы можете захотеть сделать выборку приличным процентом от оригинала.

Bob King · Answer 3 · 15 сентября 2008

Я думаю, что это также связано с частотой каждого термина (т. Е. Индекс в 10000 экземпляров одинаковых терминов должен быть намного меньше, чем индекс в 10000 полностью уникальных терминов).

Кроме того, вероятно, есть небольшая зависимость от того, используете ли вы Term Vectors или нет, и, конечно, храните ли вы поля или нет. Можете ли вы предоставить более подробную информацию? Можете ли вы проанализировать термин частота ваших исходных данных?

Как мне оценить размер индекса Lucene?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как мне оценить размер индекса Lucene?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов