Подтвердите посещения Nutch 2.x на веб-сайте в фиксированные дни с включенными выходными ссылками - PullRequest
0 голосов
/ 10 января 2019

Мы настроили Nutch 2.3.1 с Hadoop 2.x и HBase 0.98. Это кластер небольшого размера. В начальном семействе находится около 5000 доменов, и включены внешние ссылки, т. Е. Количество доменов будет увеличиваться со временем при переходе по исходящим ссылкам. Теперь у меня есть два ограничения для выполнения.

  1. Все домены в семени должны быть извлечены полностью (или вся его ссылка доступный в БД должен быть извлечен) прежде чем он начнет сканировать новый домены, найденные по внешним ссылкам
  2. Убедитесь, что Натч посетит извлеченные страницы в течение определенного периода времени, например, через 30 дней

Теперь проблема, с которой я столкнулся, заключается в том, что Nutch начинает извлекать исходящие ссылки, даже если для извлечения остается много входящих ссылок (начальных доменов). Точно так же, когда Nutch начинает получать новые и новые исходящие ссылки, у него нет возможности снова посетить страницу, так как осталось много страниц. Можно ли снова посетить страницу после определенного периода времени, даже если для извлечения осталось много URL-адресов?

Каков наилучший способ выполнить два вышеуказанных ограничения?

...