Я использовал пример установки Nutch из их вики. Я мог легко сканировать несколько страниц, извлеченных из dmoz. Но есть ли конфигурация, которая может быть выполнена для сканирования внешних ссылок, найденных на странице, или для записи этих внешних ссылок в файл, который будет сканироваться следующим?
Каков наилучший способ перехода по ссылкам на странице для индексации этой страницы с помощью Nutch? Если бы я выполнял bin / nutch через python, мог бы я вернуть все найденные внешние ссылки и создать новый список сканирования для повторного запуска? Что бы вы сделали?