Ошибка сканирования Nutch - входной путь не существует - PullRequest
1 голос
/ 10 сентября 2011

У меня есть Nutch / Hadoop с 2-х серверов datanode. Я пытаюсь сканировать некоторые URL-адреса, но Nutch не удается с этой ошибкой:

Fetcher: segment: crawl/segments
Fetcher: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://devcluster01:9000/user/nutch/crawl/segments/crawl_generate
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:190)
    at org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:44)
    at org.apache.nutch.fetcher.Fetcher$InputFormat.getSplits(Fetcher.java:105)
    at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:810)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:781)
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249)
    at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1107)
    at org.apache.nutch.fetcher.Fetcher.run(Fetcher.java:1145)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.fetcher.Fetcher.main(Fetcher.java:1116)

Может ли кто-нибудь мне помочь? Я не знаю, как это решить! Много много Thx!

Ответы [ 2 ]

1 голос
/ 01 апреля 2016

проверьте правильность пути Nutch / Crawl / сегментов / Crawl_generate.

Либо неверный путь, либо фаза разбора не завершена.

1 голос
/ 16 января 2012

Фаза генерации nutch создает "crawl_generate" внутри каталога сегментов. Он содержит список выборок, используемый на этапе выборки. Ошибка, которую вы получили, потому что фаза выборки не может получить список выборки. Убедитесь, что выходные данные generate заполнены в том месте, где fetch пытается его найти.

...