Question

Я сравниваю эти четыре Nutch / Heritrix / OpenPipeLine / Apache Tika Какой из них лучше? Каковы достоинства и недостатки каждого? Я хотел бы иметь некоторый расширяемый сканер, который может сканировать список веб-сайтов и может быть изменен при необходимости.

İsmet Alkan · Answer 1 · 20 апреля 2012

Nutch является наиболее универсальным из них, чрезвычайно настраиваемым.Пробовал с 100м документов.Надежный.

Heritrix тоже отлично работает, но не лучше, чем Nutch .

Вы можете попробовать Crawler4j , еслитебе нужно ползти быстро.

Чтобы выполнить начальное сканирование и использовать и настроить сканер с простым пользовательским интерфейсом, вы можете попробовать websphinx .

Tika isn 't crawler: это набор инструментов, который обнаруживает и извлекает метаданные и структурированный текстовый контент

У меня была работа, для которой требовалось сканирование, но OpenPipeLine не было в спискелюбимые сканерыУ него есть пользовательский интерфейс, планировщик заданий;он используется для корпоративных решений.Поскольку вы просто хотите сканировать некоторые веб-сайты, такие вещи вам не понадобятся.

user1091789 · Answer 2 · 02 января 2012

Я не исследовал упомянутые вами сканеры, но знаю, что тот, который я написал, является расширяемым и может быть изменен.Его также можно использовать с веб-сайтами AJAX и «только javascript» (т. Е. С сайтами, использующими Google Web Toolkit).

Имя: forklabs-javaxpcom, его можно найти по адресу http://code.google.com/p/forklabs-javaxpcom/.

Какой Open Source Crawler лучше?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой Open Source Crawler лучше?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы