Лучший паук с открытым исходным кодом для освещения сайта - PullRequest
3 голосов
/ 13 января 2010

Я заинтересован в сканировании большого количества сайтов. Наиболее важным соображением является то, что паук может достичь максимально возможного места. Одной из ключевых особенностей, которой не хватает большинству пауков, является возможность выполнения JavaScript. Это необходимо для сканирования сайтов, работающих на ajax. Мне действительно нравится Open Source, и мне нужно будет изменить код для моего проекта.

В настоящее время я думаю, что Solr, который является частью Lucine, является очень хорошим решением. http://lucene.apache.org/solr/features.html

Кто-нибудь использовал Solr или Lucine? Моя самая большая проблема с Solr не может выполнить javascript, однако он имеет богатый набор функций и масштабируемость, что делает Solr привлекательным.

Ответы [ 5 ]

4 голосов
/ 13 января 2010

Solr - не сканер, а поисковая система (поиск по индексу для получения результатов).

Тем не менее, мне действительно нравится heritrix за его гибкость. Большинство сканеров не будут выполнять Javascript (но некоторые, например, Heritrix, будут пытаться извлечь из него ссылки), поскольку это не имеет особого смысла даже сегодня. Дело в том, что Heritrix позволит вам подключать свои собственные классы, чтобы делать с просканированными данными все, что вы пожелаете.

2 голосов
/ 13 января 2010

Solr - поисковая система, построенная на вершине Lucene. С ползанием ничего не делает. Взгляните на Apache Nutch . Может быть проблема с взломом javascript, поскольку они часто намерены вывести сканер в тупик.

2 голосов
/ 13 января 2010

Попробуйте HTMLUnit. http://htmlunit.sourceforge.net/

1 голос
/ 13 января 2010

watir может быть полезно для вас.

0 голосов
/ 18 февраля 2012

На страницах, которые создают dom на основе шаблонов javascript, вам действительно нужно полное выполнение javascript в вашем пауке. Взгляните на https://github.com/mikeal/spider для узла JS.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...