Как можно сканировать разные сайты с различным запланированным сканированием в Nutch 1.3? - PullRequest
0 голосов
/ 19 октября 2011

У меня много сайтов; Содержание некоторых меняется каждый месяц, а содержание некоторых меняется каждый день. Nutch 1.3 просканировал их до этого момента, я хочу пересмотреть их с другим запланированным сканированием. как я могу это сделать? Благодарю.

Ответы [ 2 ]

2 голосов
/ 26 марта 2012

Вы можете написать скрипт оболочки, в котором вы можете указать имена команд, которые вы используете для запуска сканера, и использовать команду cron в linux для планирования выполнения этого скрипта.

http://www.thegeekstuff.com/2011/07/cron-every-5-minutes/

Даже Google сканирует всю сеть несколько раз спустя некоторое время.

1 голос
/ 12 августа 2013

Вы можете указать интервал выборки (время между двумя последовательными обходами) для каждой записи в вашем начальном файле следующим образом:

http://daily.com \t nutch.fetchInterval=86400
http://montly.com \t nutch.fetchInterval=2592000

Если вы используете AdaptiveFetchSchedule, указанные выше записи просто устанавливают начальный интервал ипосле каждого повторного сканирования в зависимости от того, изменяется страница или нет, этот интервал будет увеличиваться или уменьшаться.В этом случае, если вам всегда нужен фиксированный интервал, вы можете использовать nutch.fetchInterval.fixed вместо nutch.fetchInterval в вышеприведенных строках.

...