Я бы не использовал бы ветку 2.x (которая была прекращена) или 3.x (текущая разработка) для любого "серьезного" сканирования, если вы не хотите помочь улучшить Heritrix или просто хотите быть на кровоточащем краю.
Heritrix 1.14.3 является самой последней стабильной версией, и она действительно стабильна , используемая многими учреждениями для сканирования как в малых, так и в больших масштабах. Я использую для сканирования десятки тысяч доменов, собирая десятки миллионов URL-адресов менее чем за неделю.
Ветвь 3.x становится ближе к стабильному выпуску, но даже тогда я бы немного подождал общего использования в Internet Archive и других, чтобы улучшить его производительность и стабильность.
Обновление: Поскольку кто-то недавно проголосовал за это, я чувствую, что стоит отметить, что Heritrix 3.x теперь стабильна и является рекомендуемой версией для тех, кто начинает с Heritrix.