Существует ли какой-либо открытый, просто расширяемый веб-сканер? - PullRequest
7 голосов
/ 18 января 2010

Я ищу решение для веб-сканера, которое может быть достаточно зрелым и может быть просто расширено. Меня интересуют следующие функции ... или возможность расширить гусеничный механизм для их удовлетворения:

  • частично только для чтения каналов нескольких сайтов
  • отказаться от содержания этих сайтов
  • если на сайте есть архив, я бы тоже хотел его отсканировать и проиндексировать
  • сканер должен быть способен исследовать часть Интернета для меня, и он должен иметь возможность решать, какие сайты соответствуют заданным критериям
  • должен быть в состоянии уведомить меня, если найдены вещи, которые могут соответствовать моему интересу
  • сканер не должен убивать серверы, нападая на него слишком большим количеством запросов, он должен уметь сканировать
  • сканер должен быть устойчивым к чужим сайтам и серверам

Все вышеперечисленное можно выполнять по одному без особых усилий, но мне интересно любое решение, которое предоставляет настраиваемый расширяемый сканер. Я слышал об Apache Nutch, но пока не очень уверен в проекте. У вас есть опыт с этим? Можете ли вы порекомендовать альтернативы?

Ответы [ 4 ]

4 голосов
/ 31 января 2010

Я широко использовал Nutch, когда создавал индекс проекта с открытым исходным кодом для своего запуска Krugle. Это трудно настроить, будучи довольно монолитным дизайном. Существует архитектура плагинов, но взаимодействие между плагинами и системой сложно и хрупко.

В результате этого опыта и необходимости чего-то более гибкого я запустил проект Bixo - набор инструментов для веб-майнинга. http://openbixo.org.

Правильно ли это для вас, зависит от веса таких факторов, как:

  1. Сколько вам нужно гибкости (+)
  2. Насколько зрелым оно должно быть (-)
  3. Нужна ли вам способность масштабировать (+)
  4. Если вам удобно с Java / Hadoop (+)
2 голосов
/ 18 января 2010

Вы сможете найти то, что соответствует вашим потребностям здесь .

2 голосов
/ 19 января 2010

Быстрый поиск на GitHub подбросил Анемон , каркас веб-паука, который, кажется, соответствует вашим требованиям - особенно расширяемость. Написано на Ruby.
Надеюсь, что все идет хорошо!

2 голосов
/ 18 января 2010

От всей души рекомендую Heritrix . Он ОЧЕНЬ гибок, и я бы сказал, что это самый проверенный в бою свободно доступный сканер с открытым исходным кодом, поскольку он используется в интернет-архиве.

...