CrawlDb - это файл карты Had oop, который не должен редактироваться. Команда Nutch «inject» предоставляет опцию -overwrite
, которая позволяет перезаписывать существующие записи и устанавливать пользовательский интервал выборки. Файл URL должен содержать (через табуляцию):
http://myUrl/ <tab> nutch.fetchInterval=custom_interval_in_sec
Для получения более подробной информации, пожалуйста, обратитесь к справке командной строки, показанной bin/nutch inject
. Затем вы можете проверить перезаписанную запись, используя bin/nutch readdb <crawldb> <myUrl>
. Также обратите внимание, что статус извлечения перезаписанной записи теряется, соответственно. он установлен на «инъекцию».