Будет ли Nutch, паук, индексировать веб-страницы, которые он уже имеет в своем индексе? - PullRequest
2 голосов
/ 16 марта 2011

Есть ли индексные страницы Nutch снова, если они уже есть в индексе?Если так, как я могу изменить это?

1 Ответ

3 голосов
/ 18 марта 2011

Да и нет.По умолчанию Nutch будет переиндексировать страницы только через определенный период 1 месяц (из памяти), если страница не изменилась, это приведет к задержке, что также увеличит время повторного индексирования, которое по умолчанию равно 3 месяцам.Все настройки настраиваются в nutch-site.xml

...