Создание распределенного индекса в Azure и Lucene.NET.Должен ли я изучать Solr и Hadoop? - PullRequest
3 голосов
/ 14 августа 2010

Мне нужно, чтобы мои поисковые индексы основывались на реализации Azure / Lucene.NET. При этом я не очень разбираюсь в Solr и Hadoop или в том, что они предлагают толпе Linux.

Поскольку я не знаю, какая у меня впереди кривая обучения, я скажу вам, что я ищу, и, возможно, вы можете сказать мне, как я должен проводить свое время.

Я заинтересован в индексации постоянно растущей партии писем из нашей системы. Поскольку сообщения отправляются или принимаются, они должны быть доступны для поиска. Это означает, что индексы могут стать огромными, и именно поэтому мы смотрим на облачное хранилище. Учитывая, что я знаком с Azure, руководство предполагает, что мы используем Lucene.NET.

Как вы думаете, как мне лучше потратить свое время: изучите, как сделать так, чтобы Lucene.NET индексировал мои документы, или посмотрите на реализацию Solr / Hadoop для того же.

Ответы [ 2 ]

1 голос
/ 15 августа 2010

Если вы можете общаться с вашими индексными машинами по HTTP, я бы предложил использовать Solr.Вы можете довольно легко настроить сервер Solr без какого-либо программирования, просто изменив конфигурационные файлы.Он может хорошо масштабироваться, см .: Масштабирование Lucene и Solr .В настоящее время в разработке находится Solr Cloud , который упростит масштабирование Solr и поддержит некоторые функции, подобные hadoop.

1 голос
/ 14 августа 2010

Не зная о масштабах вашего исходного корпуса (мы работаем с несколькими ТБ в приложении почти в реальном времени), я могу поделиться некоторыми из нашего опыта. Мы в первую очередь .NET-магазин, и мы обнаружили, что использование Solr довольно просто с помощью таких инструментов, как SolrNet, и очень простой способ обучения для наших разработчиков.

Преимущества использования Solr очень велики: от очевидных, таких как огранка, простой, гибкий API, если он вам нужен и т. Д .; к тому, что у него гораздо более активное сообщество и самые последние функции и исправления ( ср. Lucene.net). Важно отметить, что мы могли бы легко линейно масштабировать, используя Solr с обычными машинами (извините, я не могу сравнить $ с использованием облака), но учитывая (почти нулевую) стоимость машин, которые мы используем для наших шардов, я не могу представить себе использование Azure или AWS будет дешевле.

Надеюсь, это поможет.

...