Создание URL-адресов db_gone для получения - PullRequest
1 голос
/ 08 июля 2011

В моей системе поиска я установил интервал выборки как 30 дней. Сначала я настроил свой пользовательский агент как «....», затем многие URL-адреса были отклонены. Но после изменения моего пользовательского агента на подходящее имя, я хочу получить те URL, которые изначально были отклонены. Но дело в том, что те URL-адреса, которые имеют статус db_gone, будут иметь интервал повторения 45 дней. Так что генератор не выберет это. Итак, как мне получить эти URL со статусом db_gone?

Есть ли у Nutch по умолчанию какие-либо опции для сканирования этих URL-адресов db_gone в одиночку?

Или мне нужно написать отдельную программу для уменьшения карт, чтобы собирать эти URL и использовать freegen для генерации сегментов для них?

1 Ответ

0 голосов
/ 11 июля 2011

Вам просто нужно настроить nutch-site.xml с другим интервалом повторного получения.

Сложение

<property> <name>db.fetch.interval.max</name><br> <value>7776000</value><br> <description>The maximum number of seconds between re-fetches of a page (90 days). After this period every page in the db will be re-tried, no matter what is its status. </description><br> </property>

...