Question

Я использовал пример установки Nutch из их вики. Я мог легко сканировать несколько страниц, извлеченных из dmoz. Но есть ли конфигурация, которая может быть выполнена для сканирования внешних ссылок, найденных на странице, или для записи этих внешних ссылок в файл, который будет сканироваться следующим?

Каков наилучший способ перехода по ссылкам на странице для индексации этой страницы с помощью Nutch? Если бы я выполнял bin / nutch через python, мог бы я вернуть все найденные внешние ссылки и создать новый список сканирования для повторного запуска? Что бы вы сделали?

Pascal Dimassimo · Answer 1 · 27 октября 2010

Сначала убедитесь, что для параметра 'db.ignore.external.links' установлено значение false. Кроме того, в файле 'regex-urlfilter.txt' добавьте правила для внешних ссылок, которые вы хотите сканировать, ИЛИ добавьте +. в качестве последнего правила. Правило +. заставит сканер переходить по ВСЕМ ссылкам. Если вы используете эту последнюю опцию, имейте в виду, что вы рискуете просканировать весь Интернет!

Как вы сканируете внешние ссылки на найденной странице?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как вы сканируете внешние ссылки на найденной странице?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы