размер индекса оценки Lucene, время поиска - PullRequest
0 голосов
/ 13 марта 2012

Я ищу способ оценить время индексирования, размер индекса, время поиска с помощью библиотеки lucene.

У меня есть какое-то число для 500 файлов, и я хотел бы оценить значение для документа 5000.

Я ищу в Интернете, и я не нашел хорошего способа оценить количество тезисов.

1 Ответ

0 голосов
/ 30 марта 2012

Ответ во многом зависит от того, что вы положили в индекс.Очевидно, что если вы сохраняете полное содержимое поля, то вы можете ожидать, по крайней мере, линейного роста с коэффициентом в пределах порядка от 1. Если вы только индексируете термины, вам потребуется гораздо меньше места, но в то же время оценкабудет намного сложнее.Например, количество уникальных индексных терминов является очень важным фактором.Это, вероятно, начнет выравниваться с некоторого числа, которое сильно зависит от деталей вашего контента.В общем, в таком случае измерение, вероятно, ваш единственный надежный метод.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...