Дайте сравнение Nutch против Heritrix - PullRequest
2 голосов
/ 16 июля 2010

Я хочу выбрать один из вышеперечисленных для создания структуры сканирования для определенных веб-сайтов.Это не интернет-сканирование.Я не создаю поисковый индекс, а скорее заинтересован в удалении определенных страниц с веб-сайта.

Не могли бы вы рассказать подробнее о плюсах и минусах выше?Спасибо Найн

1 Ответ

0 голосов
/ 16 июля 2010

Ваша основная задача - очистить определенные страницы с веб-сайта.

Nutch : ПО для поиска в Интернете с открытым исходным кодом, построенное на Lucene Java

Heritrix : это проект по поиску в Интернете с открытым исходным кодом, расширяемый, масштабируемый в сети, веб-сканер архивного качества

Так что я думаю, что Heritrix намного лучше, чем Nutch для вашего проекта.

Изучение основы / библиотеки является ценным упражнением.Но это занимает некоторое время.Поскольку ваша задача не очень сложна, иногда было бы менее болезненно написать простой сканер с нуля на Java

...