Структурированная и неструктурированная индексация - Lucene и Hbase - PullRequest
5 голосов
/ 01 августа 2011

У меня есть набор из 200 миллионов документов, которые мне нужно проиндексировать.Каждый документ имеет свободный текст и дополнительный набор информации о редких метаданных (более 100 столбцов).

Похоже, что правильным инструментом для индексации свободного текста является Lucene, а правильным инструментом для структурированных разреженных метаданных является HBase.

Мне нужно запросить данные и объединить результаты поиска в свободном тексте и результаты структурированных данных (например, получить все книги, в тексте которых есть фраза «доброе утро»), которые были впервые опубликованы в 1980 году.

На какие инструменты / механизмы мне следует обратить внимание, чтобы объединить структурированные и необработанные запросы?Результаты могут включать миллионы записей (до и после объединения)

Спасибо, Саар

Ответы [ 2 ]

3 голосов
/ 10 августа 2011

На ум приходит пара вещей, в дополнение к lucene на hbase:

1) Solr / Lucene может хранить несколько полей, и каждое поле может иметь разные типы. Так что ваш пример диапазона дат вполне вероятен в Solr.

2) Если вы говорите о действительно огромных наборах данных, для которых требуется кластер, также посмотрите ElasticSearch: http://www.elasticsearch.org/

3) Лили пытается ответить на ваш точный вопрос http://www.lilyproject.org/lily/index.html

2 голосов
/ 01 августа 2011

Похоже, что HBase также хотел бы некоторые действия Lucene: https://issues.apache.org/jira/browse/HBASE-3529.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...