Question

Мы запускаем Solr на экземпляре Amazon Web Services EC2 с томом EBS объемом 1 ТБ для хранения индекса, чтобы мы могли легко запускать дополнительные серверы с таким же индексом (только для чтения).Тем не менее, наш индекс скоро превысит 1 ТБ, и я не хочу разбирать несколько томов EBS для хранения индекса.Кроме того, восстановление индекса происходит очень медленно.Я хотел бы перенести генерацию индекса - и, возможно, хостинг - на Hadoop, и, предпочтительно, на Amazon Elastic MapReduce, хотя в случае необходимости я могу настроить отдельные серверы Hadoop.Мы используем RightScale, поэтому нам доступна их библиотека ServerTemplates.

Как лучше всего начать использовать Lucene / Solr в Hadoop?

D_K · Answer 1 · 10 июля 2011

Ваш индекс осквернен? Вы можете разделить индекс на части и распределить его на несколько экземпляров.

Jeremy Carroll · Answer 2 · 04 июня 2011

Посмотрите на ElasticSearch.Вы можете индексировать ElasticSearch из Hadoop для массовой загрузки.Infochimps открыла источник массового индексатора ElasticSearch под названием Wonderdog, на который вы можете посмотреть для подтверждения концепции.

https://github.com/infochimps/wonderdog http://www.elasticsearch.com

Это дружественный к облакам (см. Плагин cloud-aws для обнаружения) и может увеличиваться / уменьшаться путем добавления узлов для хранения индекса.

Каков наилучший способ запуска Lucene / Solr на Hadoop?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Каков наилучший способ запуска Lucene / Solr на Hadoop?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы