Марк Наджорк и Аллан Хейдон написали отличную статью о своем Java, масштабируемом и расширяемом веб-сканере под названием Mercator.
Вот некоторые ресурсы по веб-сканеру Mercator:
Кто-нибудь видел какие-либо реализации сканера (желательно java)?
Обновление: У меня У меня были проблемы со ссылками, Я собираюсь попытаться получить лучшие ссылки для ссылочных статей. но я думаю, что я их исправилТеперь.
Я нашел пару сканеров Java, которые должны быть довольно близки к Mercator:
Другие ссылки приветствуются.
StormCrawler - это SDK с открытым исходным кодом для создания распределенных веб-искателей с малой задержкой и Apache Storm . Проект находится под лицензией Apache v2 и состоит из набора повторно используемых ресурсов и компонентов, написанных в основном на Java.