Какой Open Source Crawler лучше? - PullRequest
       7

Какой Open Source Crawler лучше?

5 голосов
/ 07 декабря 2011

Я сравниваю эти четыре Nutch / Heritrix / OpenPipeLine / Apache Tika Какой из них лучше? Каковы достоинства и недостатки каждого? Я хотел бы иметь некоторый расширяемый сканер, который может сканировать список веб-сайтов и может быть изменен при необходимости.

Ответы [ 2 ]

3 голосов
/ 20 апреля 2012

Nutch является наиболее универсальным из них, чрезвычайно настраиваемым.Пробовал с 100м документов.Надежный.

Heritrix тоже отлично работает, но не лучше, чем Nutch .

Вы можете попробовать Crawler4j , еслитебе нужно ползти быстро.

Чтобы выполнить начальное сканирование и использовать и настроить сканер с простым пользовательским интерфейсом, вы можете попробовать websphinx .

Tika isn 't crawler: это набор инструментов, который обнаруживает и извлекает метаданные и структурированный текстовый контент

У меня была работа, для которой требовалось сканирование, но OpenPipeLine не было в спискелюбимые сканерыУ него есть пользовательский интерфейс, планировщик заданий;он используется для корпоративных решений.Поскольку вы просто хотите сканировать некоторые веб-сайты, такие вещи вам не понадобятся.

1 голос
/ 02 января 2012

Я не исследовал упомянутые вами сканеры, но знаю, что тот, который я написал, является расширяемым и может быть изменен.Его также можно использовать с веб-сайтами AJAX и «только javascript» (т. Е. С сайтами, использующими Google Web Toolkit).

Имя: forklabs-javaxpcom, его можно найти по адресу http://code.google.com/p/forklabs-javaxpcom/.

...