Solr с многоядерной, распределенной архитектурой? - PullRequest
0 голосов
/ 11 января 2012

Я планирую использовать Solr в качестве поискового сервера и разработаю собственный паук или может расширить Nutch.

Я пытаюсь разработать лучшую экономическую топологию, которая соответствует моим целям на данный момент, а также остается открытой для дальнейшего расширения.

Я планирую использовать Amazon AWS для размещения всех компьютеров. Мой вопрос заключается в том, чтобы понять выполнимость следующей идеи и требования, помощь будет принята!

  1. Один узел Solr (предназначен только для обслуживания запросов - от сервера запросов до веб-интерфейса)
  2. Узлы Solr по требованию (1 или несколько) (в качестве сервера индексирования - Nutch или другие пауки будут подключаться к этому узлу и заполняться новым контентом для сканирования и индексации)

Я не уверен, что, как и многие другие поисковые серверы (например, Microsoft FAST или SharePoint Search), я могу развернуть распределенную топологию с общей базой данных.

Я готов использовать Hadoop или любую другую распределенную файловую систему, если она может поддерживать такую ​​топологию.

Так что в основном это будет выглядеть следующим образом:

                  ---------------------------------------------------

                Hadoop or anyother distributed file system / db system

                  ---------------------------------------------------

                                           ||
                                           ||
                                           ||
                                           VV
                  ----------------                ------------------------

                  Solr query node                  Dedicated Solr index nodes 
                (1 powerful server)         +              (on demand)
                                                 with Nutch or other web spider

                  ----------------                ------------------------

                         ||                                   ||
                         VV                                   VV
                    Web Front End                          Internet       

Я новичок в этой технологии, многие участники сообщества на других форумах и на внештатных веб-сайтах предложили многоядерную реализацию, но я понимаю, что многоядерность заключается в поддержке различающихся катодов данных (ничего общего с кластеризацией или распределенной архитектурой)! Я прав?

Пожалуйста, сообщите о целесообразности!

Заранее большое спасибо.

Nilay.

1 Ответ

1 голос
/ 12 января 2012

"cores" в solr используется для описания "среды полнотекстового индекса". Вы можете запустить 1 контейнер Java EE (tomcat, ant и т. Д.), Чтобы предоставлять разные сервисы с разными базами данных и разными полнотекстовыми индексами. Пример 1 Ядро для поиска товара, 1 ядро ​​для поиска почты и т. Д.

Каждый работающий контейнер Java EE с solr имеет как минимум одно ядро. Если посмотреть на вашу топологию, то кажется, что вам нужно одно внешнее solr-envorinment, вероятно, 1 ядро ​​и одно внутреннее solr-envoronment, вероятно, также 1 ядро.

Итак, у вас есть 2 сервера, 2 контейнера Java EE и 2 ядра. Вы можете видеть эти 2 ядра как «многоядерные» (более одного) ядра, но на самом деле это две одноядерные установки, которые использовали (вероятно) что-то вроде репликации. http://wiki.apache.org/solr/SolrReplication

...