Question

Я установил hadoop 2.x и Nutch 1.x. Кто-нибудь может подсказать мне, как сохранить данные, полученные в Интернете, в формате hdf? Например, предоставить любую документацию или любую ссылку, касающуюся этой конфигурации. Спасибо всем.

Sebastian Nagel · Answer 1 · 25 апреля 2018

Nutch предназначен для хранения данных на HDFS.Предполагается, что Hadoop запущен, а команда hadoop находится на $ PATH. Вам необходимо

изменить конфигурацию (conf / nutch-site.xml и т. Д.) И (пере) скомпилировать Nutch, запустив ant runtime
вызовите сценарии (crawl или nutch) в runtime/deploy/bin, например, .../runtime/deploy/bin/crawl -s hdfs:///myseeds/ hdfs://.../crawl/ 3

Все данные для сканирования будут сохранены в HDFS.Если у вас нет запущенного кластера Hadoop, вы можете начать с кластера с одним узлом, см. NutchHadoopSingleNodeTutorial и nutch-test-single-node-cluster .

Для хранения веб-данных, сканируемых Nutch в hdfs

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Для хранения веб-данных, сканируемых Nutch в hdfs

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы