Архитектура с 3 серверами для поисковой системы Solr - PullRequest
0 голосов
/ 10 августа 2010

Я собираюсь построить поисковую систему на solr, а также на гусеничном ходу. Я должен проиндексировать около 13 миллионов документов. У меня есть 3 сервера для этой работы:

  1. 4-ядерный Xeon 3Ghz, оперативная память 20 ГБ, 1,5 ТБ sata
  2. 2 * 4-ядерный Xeon 3 ГГц, 16 ГБ ОЗУ, 500 ГБ ide
  3. 2 * 4-ядерный Xeon 3Ghz, оперативная память 16 ГБ, 500 ГБ ide

Один из серверов, который я могу использовать в качестве главного для сканирования и индексации, другие два - в качестве ведомого для поиска, или я могу использовать один для поиска, а два других - для индексации с двумя шардами. Какую архитектуру вы можете порекомендовать? Должен ли я использовать шардинг, сколько шардов и какой сервер мне использовать для каких целей?

Ответы [ 2 ]

1 голос
/ 11 августа 2010

Я думаю, попробуйте оба.Читайте о том, что сделал HathiTrust.Я бы начал с одного хозяина и двух рабов, это самый простой подход.И если у вас есть только 13 миллионов документов, я предполагаю, что нагрузка будет на стороне индексации / сканирования ..... Но 13 миллионов - это всего ~ 300 страниц в минуту.Я думаю, что ваш гадюка будет бутылочным горлышком ....

0 голосов
/ 12 октября 2010

Я бы предпочел использовать два сервера для поиска и один для индексации.

Как правило, вы хотите, чтобы поиск выполнялся как можно быстрее за счет производительности индексации.Кроме того, два сервера поиска обеспечивают некоторую естественную избыточность.

Я бы также использовал третий сервер для поиска, когда он фактически не выполняет индексацию.(13 миллионов документов - это не огромный индекс, и его индексация не займет много времени по сравнению с тем, как часто вы его переиндексируете)

...