Я установил hadoop 2.x и Nutch 1.x. Кто-нибудь может подсказать мне, как сохранить данные, полученные в Интернете, в формате hdf? Например, предоставить любую документацию или любую ссылку, касающуюся этой конфигурации. Спасибо всем.
Nutch предназначен для хранения данных на HDFS.Предполагается, что Hadoop запущен, а команда hadoop находится на $ PATH. Вам необходимо
hadoop
ant runtime
crawl
nutch
runtime/deploy/bin
.../runtime/deploy/bin/crawl -s hdfs:///myseeds/ hdfs://.../crawl/ 3
Все данные для сканирования будут сохранены в HDFS.Если у вас нет запущенного кластера Hadoop, вы можете начать с кластера с одним узлом, см. NutchHadoopSingleNodeTutorial и nutch-test-single-node-cluster .