Я планирую использовать Solr в качестве поискового сервера и разработаю собственный паук или может расширить Nutch.
Я пытаюсь разработать лучшую экономическую топологию, которая соответствует моим целям на данный момент, а также остается открытой для дальнейшего расширения.
Я планирую использовать Amazon AWS для размещения всех компьютеров. Мой вопрос заключается в том, чтобы понять выполнимость следующей идеи и требования, помощь будет принята!
- Один узел Solr (предназначен только для обслуживания запросов - от сервера запросов до веб-интерфейса)
- Узлы Solr по требованию (1 или несколько) (в качестве сервера индексирования - Nutch или другие пауки будут подключаться к этому узлу и заполняться новым контентом для сканирования и индексации)
Я не уверен, что, как и многие другие поисковые серверы (например, Microsoft FAST или SharePoint Search), я могу развернуть распределенную топологию с общей базой данных.
Я готов использовать Hadoop или любую другую распределенную файловую систему, если она может поддерживать такую топологию.
Так что в основном это будет выглядеть следующим образом:
---------------------------------------------------
Hadoop or anyother distributed file system / db system
---------------------------------------------------
||
||
||
VV
---------------- ------------------------
Solr query node Dedicated Solr index nodes
(1 powerful server) + (on demand)
with Nutch or other web spider
---------------- ------------------------
|| ||
VV VV
Web Front End Internet
Я новичок в этой технологии, многие участники сообщества на других форумах и на внештатных веб-сайтах предложили многоядерную реализацию, но я понимаю, что многоядерность заключается в поддержке различающихся катодов данных (ничего общего с кластеризацией или распределенной архитектурой)! Я прав?
Пожалуйста, сообщите о целесообразности!
Заранее большое спасибо.
Nilay.