Nutch 1.3: изменить User-Agent - PullRequest
1 голос
/ 31 июля 2011

Мне нужно изменить строку user-agent для каждого просканированного домена.Я использую стандартный код утилиты сканирования Nutch, он сканирует один домен за раз.Он запускается в режиме многопоточности для сканирования многих доменов.Мне нужно перейти на доменную строку [имя_бота] + domainID, но я не уверен, как это реализовать?

1 Ответ

1 голос
/ 04 августа 2011

Поскольку пользовательский агент отображается в файле конфигурации (nutch-site.xml), его нельзя изменить для определенного домена.

Я предлагаю вам создать экземпляр Nutch для каждого домена, который вы хотите сканировать. В каждом экземпляре вы устанавливаете URL-фильтр, начальный URL и пользовательский агент, соответствующие домену, который вы хотите сканировать.

Это должно позволить вам выполнять каждый обход с пользовательскими настройками.

ура мана

...