Как вы сканируете внешние ссылки на найденной странице? - PullRequest
2 голосов
/ 26 октября 2010

Я использовал пример установки Nutch из их вики. Я мог легко сканировать несколько страниц, извлеченных из dmoz. Но есть ли конфигурация, которая может быть выполнена для сканирования внешних ссылок, найденных на странице, или для записи этих внешних ссылок в файл, который будет сканироваться следующим?

Каков наилучший способ перехода по ссылкам на странице для индексации этой страницы с помощью Nutch? Если бы я выполнял bin / nutch через python, мог бы я вернуть все найденные внешние ссылки и создать новый список сканирования для повторного запуска? Что бы вы сделали?

1 Ответ

3 голосов
/ 27 октября 2010

Сначала убедитесь, что для параметра 'db.ignore.external.links' установлено значение false. Кроме того, в файле 'regex-urlfilter.txt' добавьте правила для внешних ссылок, которые вы хотите сканировать, ИЛИ добавьте +. в качестве последнего правила. Правило +. заставит сканер переходить по ВСЕМ ссылкам. Если вы используете эту последнюю опцию, имейте в виду, что вы рискуете просканировать весь Интернет!

...