график времени, чтобы посетить страницу снова - PullRequest
0 голосов
/ 04 мая 2018

Я настроил Nutch 2.3.1 с экосистемой Hadoop / Hbase. У меня есть несколько сотен доменов, которые я хочу получить. Я забрал многие из них до сих пор. Мне любопытно, что когда Nutch снова посетит уже извлеченный документ и повторно загрузит его, если он будет обновлен. Есть какой-нибудь параметр управления или что-то в этом роде?

1 Ответ

0 голосов
/ 04 мая 2018

Nutch имеет несколько способов настройки при повторном получении страницы (см. https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml).

db.fetch.interval.default (начальное значение выборки, назначаемое при первой загрузке страницы). Имейте в виду, что реализация по умолчанию (db.fetch.schedule.class, https://github.com/apache/nutch/blob/release-2.3.1/conf/nutch-default.xml#L396) всегда добавляет интервал выборки к последнему времени выборки, поэтому не является идеальным. Я бы рекомендовал перейти к алгоритму адаптивного графика выборки, который попытается оптимизировать время следующей загрузки в зависимости от того, как часто страница обновляется (https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/crawl/AdaptiveFetchSchedule.java).

Имейте в виду, что вы также можете указать время получения URL-адреса (во время вставки), используя ключ метаданных nutch.fetchInterval в начальном файле (https://github.com/apache/nutch/blob/release-2.3.1/src/java/org/apache/nutch/crawl/InjectorJob.java#L59).

).
...