На какой Critia Nutch выбирает TopN документы при сканировании? - PullRequest
0 голосов
/ 27 января 2012

На каком сайте Criteia Nchch выбирает TopN документы при сканировании?И как Nutch создает сегменты .?

1 Ответ

1 голос
/ 03 апреля 2012

Вот вещи, которые принимаются во внимание:

  1. Оценка URL
  2. сколько URL-адресов, принадлежащих одному хосту, разрешено сканировать.
  3. Достигнуто ли время повторного получения URL-адреса?
...