Исключение в потоке "main" java.lang.ClassNotFoundException ошибка - PullRequest
0 голосов
/ 25 апреля 2019

Я бегу hadoop jar /home/apache-nutch-2.3.1/runtime/deploy/apache-nutch-2.3.1.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 -topN 5 Но я получаю следующую ошибку:

Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl
        at java.net.URLClassLoader.findClass(URLClassLoader.java:382)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        at java.lang.Class.forName0(Native Method)
        at java.lang.Class.forName(Class.java:348)
        at org.apache.hadoop.util.RunJar.run(RunJar.java:316)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:236)

Я создал файл urls / seed.text в /home/apache-nutch-2.3.1/build/, который содержит следующие URL: http://nutch.apache.org http://apache.org и я отредактировал conf / regex-urlfilter.txt следующим образом: +^http://([a-z0-9]*\.)*apache.org/

1 Ответ

1 голос
/ 25 апреля 2019

Класс org.apache.nutch.crawl.Crawl был удален с версии 1.8.Вместо этого рекомендуется запустить скрипт оболочки bin / crawl.Он будет запускать задания Hadoop для каждого шага сканирования: внедрение, генерация, выборка, анализ и т. Д.

...