Nutch: Критерии для db_unfetched состояния URL - PullRequest
0 голосов
/ 03 февраля 2012

В каких случаях URL перешел на фазу db_unfetched. делает URL не удовлетворяющим crawlurlfilter.txt и переходит в состояние db_unfetched.

1 Ответ

3 голосов
/ 03 апреля 2012

Следующие URL помечены как db_ unfetched:

  1. Недавно введенный URL,
  2. URL, который не получен,
  3. URL, который не может быть получен из-за какого-то исключения

crawlurlfilter.txt не позволяет URL иметь право на получение. Таким образом, URL останутся db_unfetched.

...