Nutch является наиболее универсальным из них, чрезвычайно настраиваемым.Пробовал с 100м документов.Надежный.
Heritrix тоже отлично работает, но не лучше, чем Nutch .
Вы можете попробовать Crawler4j , еслитебе нужно ползти быстро.
Чтобы выполнить начальное сканирование и использовать и настроить сканер с простым пользовательским интерфейсом, вы можете попробовать websphinx .
Tika isn 't crawler: это набор инструментов, который обнаруживает и извлекает метаданные и структурированный текстовый контент
У меня была работа, для которой требовалось сканирование, но OpenPipeLine не было в спискелюбимые сканерыУ него есть пользовательский интерфейс, планировщик заданий;он используется для корпоративных решений.Поскольку вы просто хотите сканировать некоторые веб-сайты, такие вещи вам не понадобятся.