Мы настроили Nutch 2.3.1
с Hadoop 2.x
и HBase 0.98
. Это кластер небольшого размера. В начальном семействе находится около 5000 доменов, и включены внешние ссылки, т. Е. Количество доменов будет увеличиваться со временем при переходе по исходящим ссылкам. Теперь у меня есть два ограничения для выполнения.
- Все домены в семени должны быть извлечены полностью (или вся его ссылка
доступный в БД должен быть извлечен) прежде чем он начнет сканировать новый
домены, найденные по внешним ссылкам
- Убедитесь, что Натч посетит извлеченные страницы в течение определенного периода времени, например, через 30 дней
Теперь проблема, с которой я столкнулся, заключается в том, что Nutch начинает извлекать исходящие ссылки, даже если для извлечения остается много входящих ссылок (начальных доменов). Точно так же, когда Nutch начинает получать новые и новые исходящие ссылки, у него нет возможности снова посетить страницу, так как осталось много страниц. Можно ли снова посетить страницу после определенного периода времени, даже если для извлечения осталось много URL-адресов?
Каков наилучший способ выполнить два вышеуказанных ограничения?