Lucene - это правильный ответ для огромного индекса? - PullRequest
8 голосов
/ 03 августа 2011

Может ли Lucene индексировать 500M текстовых документов по 50К каждый?

Каких показателей можно ожидать для такого индекса, для поиска по одному запросу и для поиска по 10 терминам?

Должен ли я волноваться и перейти непосредственно к среде распределенного индекса?

Саар

1 Ответ

7 голосов
/ 03 августа 2011

Да, Lucene должен справиться с этим, согласно следующей статье: http://www.lucidimagination.com/content/scaling-lucene-and-solr

Вот цитата:

В зависимости от множества факторов на одной машине можно легко разместить индекс Lucene / Solr, содержащий от 5 до 80 с лишним миллионов документов, в то время как распределенное решение может обеспечить подсекундное время ответа на поиск по миллиардам документов.

В статье подробно рассматривается масштабирование до нескольких серверов. Таким образом, вы можете начать с малого и при необходимости масштабировать.

Отличным ресурсом о производительности Lucene является блог Майка МакКэндлесса, который активно участвует в разработке Lucene: http://blog.mikemccandless.com/ Он часто использует контент Википедии (25 ГБ) в качестве тестового ввода для Lucene.

Также может быть интересно, что поиск в Twitter в реальном времени теперь реализован с помощью Lucene (см. http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html).

Однако мне интересно, правильны ли предоставленные вами числа: 500 миллионов документов x 50 КБ = ~ 23 ТБ. Действительно ли у вас так много данных?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...