Как изменить интервал выборки URL в crawldb? - PullRequest
0 голосов
/ 07 января 2020

Предположим, я настроил db.fetch.interval.default на значение 10. Кроме того, предположим, что я успешно просканировал веб-сайт (например, http://example.com). На этом этапе все URL-адреса в crawldb будут иметь интервал выборки 10 дней.

Проблема: я хочу изменить интервал выборки для одного конкретного URL, скажем, для http://example.com/daily-news/. Я хочу отредактировать crawldb, чтобы изменить интервал выборки для http://example.com/daily-news/ до 2 дней вместо 10. Как я могу редактировать crawldb?

1 Ответ

1 голос
/ 07 января 2020

CrawlDb - это файл карты Had oop, который не должен редактироваться. Команда Nutch «inject» предоставляет опцию -overwrite, которая позволяет перезаписывать существующие записи и устанавливать пользовательский интервал выборки. Файл URL должен содержать (через табуляцию):

http://myUrl/ <tab> nutch.fetchInterval=custom_interval_in_sec

Для получения более подробной информации, пожалуйста, обратитесь к справке командной строки, показанной bin/nutch inject. Затем вы можете проверить перезаписанную запись, используя bin/nutch readdb <crawldb> <myUrl>. Также обратите внимание, что статус извлечения перезаписанной записи теряется, соответственно. он установлен на «инъекцию».

...