Как заставить Heritrix продолжить процесс сканирования на найденных доменах, которых нет в начальном списке - PullRequest
0 голосов
/ 02 октября 2011

Как заставить Heritrix продолжить процесс сканирования на найденных доменах, которых нет в начальном списке?
Я имею в виду сделать это, чтобы не останавливаться после обхода всех доменов в списке семян. и продолжайте процесс сканирования для каждой ссылки, найденной в процессе сканирования.

Ответы [ 3 ]

1 голос
/ 03 октября 2011

По умолчанию Heritrix настроен на сканирование только тех URL-адресов, которые находятся в вашем начальном списке.Некоторый дополнительный материал также обычно сканируется, поскольку внедренный материал, размещенный в другом месте, также извлекается.

Если вы хотите, чтобы Heritrix сканировала все, с чем сталкивались, вам нужно изменить область действия.

Область действия состоит из ряда правил принятия решений.Каждое правило может ПРИНЯТЬ, ОТКАЗАТЬ или передать URL.Последнее правило либо ПРИНЯТЬ, либо ОТКАЗАТЬ побеждает.Как правило, первое правило в списке - это общее отклонение всех, затем следует SurtPrefixDecideRule, который управляет во всех URL-адресах, которые соответствуют списку SURT.Список SURT обычно создается с использованием начального списка.

Однако вы можете настроить список SURT вручную, указав свой собственный, или (если вы действительно хотите все), вы можете просто удалить его и отклонить все правила идобавьте в начало правило принятия всех решений.

Подробнее о настройке области действия Heritrix 3.

1 голос
/ 02 октября 2011

Прошло много времени с тех пор, как я в последний раз работал с Heritrix, но если память хорошо мне подходит, вам нужно изменить max-link-hops в ваших настройках / профиле. Чем больше вы делаете max-link-hops, тем больше шагов ("прыжков") делает Heritrix из заданных вами семян.

0 голосов
/ 15 октября 2015

Вы также можете установить для правила выбора Surt 'NotonDomains' значение true. При этом будут сканироваться все домены, которых нет в начальном списке.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...