По умолчанию Heritrix настроен на сканирование только тех URL-адресов, которые находятся в вашем начальном списке.Некоторый дополнительный материал также обычно сканируется, поскольку внедренный материал, размещенный в другом месте, также извлекается.
Если вы хотите, чтобы Heritrix сканировала все, с чем сталкивались, вам нужно изменить область действия.
Область действия состоит из ряда правил принятия решений.Каждое правило может ПРИНЯТЬ, ОТКАЗАТЬ или передать URL.Последнее правило либо ПРИНЯТЬ, либо ОТКАЗАТЬ побеждает.Как правило, первое правило в списке - это общее отклонение всех, затем следует SurtPrefixDecideRule, который управляет во всех URL-адресах, которые соответствуют списку SURT.Список SURT обычно создается с использованием начального списка.
Однако вы можете настроить список SURT вручную, указав свой собственный, или (если вы действительно хотите все), вы можете просто удалить его и отклонить все правила идобавьте в начало правило принятия всех решений.
Подробнее о настройке области действия Heritrix 3.