Для хранения веб-данных, сканируемых Nutch в hdfs - PullRequest
0 голосов
/ 25 апреля 2018

Я установил hadoop 2.x и Nutch 1.x. Кто-нибудь может подсказать мне, как сохранить данные, полученные в Интернете, в формате hdf? Например, предоставить любую документацию или любую ссылку, касающуюся этой конфигурации. Спасибо всем.

1 Ответ

0 голосов
/ 25 апреля 2018

Nutch предназначен для хранения данных на HDFS.Предполагается, что Hadoop запущен, а команда hadoop находится на $ PATH. Вам необходимо

  1. изменить конфигурацию (conf / nutch-site.xml и т. Д.) И (пере) скомпилировать Nutch, запустив ant runtime
  2. вызовите сценарии (crawl или nutch) в runtime/deploy/bin, например, .../runtime/deploy/bin/crawl -s hdfs:///myseeds/ hdfs://.../crawl/ 3

Все данные для сканирования будут сохранены в HDFS.Если у вас нет запущенного кластера Hadoop, вы можете начать с кластера с одним узлом, см. NutchHadoopSingleNodeTutorial и nutch-test-single-node-cluster .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...