Question

У меня есть миллион URL-адресов для получения. Я использую этот список как семена орехов и использую базовую команду Nutch для crawl . Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я устанавливаю параметры сканирования как -depth 1 -topN 1000000. Но это не работает. Кто-нибудь знает, как это сделать?

Tejas Patil · Answer 1 · 03 апреля 2012

Установить это свойство в nutch-site.xml. (по умолчанию его значение true, поэтому он добавляет ссылки на crawldb)

<property>
  <name>db.update.additions.allowed</name>
  <value>false</value>
  <description>If true, updatedb will add newly discovered URLs, if false
  only already existing URLs in the CrawlDb will be updated and no new
  URLs will be added.
  </description>
</property>

Debaditya · Answer 2 · 06 февраля 2012

Удалить каталог сканирования и URL-адреса (если он был создан ранее)
Создание и обновление начального файла (где URL указаны в 1URL на строку)
Перезапустить процесс сканирования

Команда

nutch crawl urllist -dir crawl -depth 3 -topN 1000000

urllist - Каталог, в котором находится начальный файл (список URL)
crawl - Имя каталога

Даже если проблема не устраняется, попробуйте удалить папку Nutch и перезапустить весь процесс.

Использование Nutch для сканирования указанного списка URL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование Nutch для сканирования указанного списка URL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы