Каков наилучший способ запуска Lucene / Solr на Hadoop? - PullRequest
3 голосов
/ 01 июня 2011

Мы запускаем Solr на экземпляре Amazon Web Services EC2 с томом EBS объемом 1 ТБ для хранения индекса, чтобы мы могли легко запускать дополнительные серверы с таким же индексом (только для чтения).Тем не менее, наш индекс скоро превысит 1 ТБ, и я не хочу разбирать несколько томов EBS для хранения индекса.Кроме того, восстановление индекса происходит очень медленно.Я хотел бы перенести генерацию индекса - и, возможно, хостинг - на Hadoop, и, предпочтительно, на Amazon Elastic MapReduce, хотя в случае необходимости я могу настроить отдельные серверы Hadoop.Мы используем RightScale, поэтому нам доступна их библиотека ServerTemplates.

Как лучше всего начать использовать Lucene / Solr в Hadoop?

Ответы [ 2 ]

1 голос
/ 10 июля 2011

Ваш индекс осквернен? Вы можете разделить индекс на части и распределить его на несколько экземпляров.

1 голос
/ 04 июня 2011

Посмотрите на ElasticSearch.Вы можете индексировать ElasticSearch из Hadoop для массовой загрузки.Infochimps открыла источник массового индексатора ElasticSearch под названием Wonderdog, на который вы можете посмотреть для подтверждения концепции.

https://github.com/infochimps/wonderdog http://www.elasticsearch.com

Это дружественный к облакам (см. Плагин cloud-aws для обнаружения) и может увеличиваться / уменьшаться путем добавления узлов для хранения индекса.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...