Я заинтересован в сканировании большого количества сайтов. Наиболее важным соображением является то, что паук может достичь максимально возможного места. Одной из ключевых особенностей, которой не хватает большинству пауков, является возможность выполнения JavaScript. Это необходимо для сканирования сайтов, работающих на ajax. Мне действительно нравится Open Source, и мне нужно будет изменить код для моего проекта.
В настоящее время я думаю, что Solr, который является частью Lucine, является очень хорошим решением.
http://lucene.apache.org/solr/features.html
Кто-нибудь использовал Solr или Lucine? Моя самая большая проблема с Solr не может выполнить javascript, однако он имеет богатый набор функций и масштабируемость, что делает Solr привлекательным.