Использование Nutch для сканирования указанного списка URL - PullRequest
1 голос
/ 06 февраля 2012

У меня есть миллион URL-адресов для получения. Я использую этот список как семена орехов и использую базовую команду Nutch для crawl . Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я устанавливаю параметры сканирования как -depth 1 -topN 1000000. Но это не работает. Кто-нибудь знает, как это сделать?

Ответы [ 2 ]

4 голосов
/ 03 апреля 2012

Установить это свойство в nutch-site.xml. (по умолчанию его значение true, поэтому он добавляет ссылки на crawldb)

<property>
  <name>db.update.additions.allowed</name>
  <value>false</value>
  <description>If true, updatedb will add newly discovered URLs, if false
  only already existing URLs in the CrawlDb will be updated and no new
  URLs will be added.
  </description>
</property>
2 голосов
/ 06 февраля 2012
  • Удалить каталог сканирования и URL-адреса (если он был создан ранее)
  • Создание и обновление начального файла (где URL указаны в 1URL на строку)
  • Перезапустить процесс сканирования

Команда

nutch crawl urllist -dir crawl -depth 3 -topN 1000000
  • urllist - Каталог, в котором находится начальный файл (список URL)
  • crawl - Имя каталога

Даже если проблема не устраняется, попробуйте удалить папку Nutch и перезапустить весь процесс.

...