Интеграция Apache Nutch Hadoop - PullRequest
2 голосов
/ 13 марта 2019

Я настроил apache-nutch-1.15 и hadoop для запуска в режиме развертывания по предоставленной ссылке https://wiki.apache.org/nutch/NutchHadoopTutorial

но когда я попытался запустить приведенную ниже команду

hadoop jar apache-nutch-${version}.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 -topN 5

Я получил следующее исключение

Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:348)
    at org.apache.hadoop.util.RunJar.run(RunJar.java:214)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:136)

класс org.apache.nutch.crawl.Crawl отсутствует в nutch v1.15, но присутствует в nutch v1.17.

Пожалуйста, помогите мне с этим

1 Ответ

2 голосов
/ 03 апреля 2019

Документация по apache nutch для сканирования в hdfs не обновляется с 2014 года. В новой версии apache nutch нет класса с именем org.apache.nutch.crawl.Crawl.

Чтобы запустить Apache Nutch, следуйте документам, относящимся к сканированию в локальной файловой системе (https://wiki.apache.org/nutch/NutchTutorial). Выберите в ссылке «Вариант 2: Настройка Nutch из исходного дистрибутива», после чего у вас будет папка развертывания в каталог времени выполнения (режим развертывания предназначен для сброса данных в hadoop)

перейдите в папку развертывания и выполните те же команды, которые указаны для локального режима в приведенной выше ссылке, заменив все локальные пути на пути hdfs

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...