Ошибка тракта Nutch - PullRequest
       10

Ошибка тракта Nutch

2 голосов
/ 28 октября 2011

Привет, я установил solr и nutch в Ubuntu.Я могу сканировать и индексировать время от времени, но не все время.Я неоднократно получал эту ошибку пути и не мог найти решение онлайн.Обычно я удаляю каталоги, в которых есть ошибки, и запускаю их заново.Но я не хочу больше этим заниматься.Что является причиной ошибки?Спасибо.

LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027231916
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027232907
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027233840
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027224701
LinkDb: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027231916/parse_data
Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027232907/parse_data
Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027233840/parse_data
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:190)
    at org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:44)
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:201)
    at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:810)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:781)
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249)
    at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:175)
    at org.apache.nutch.crawl.LinkDb.run(LinkDb.java:290)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.crawl.LinkDb.main(LinkDb.java:255)

Ответы [ 2 ]

1 голос
/ 06 мая 2012

Вы, должно быть, убили процесс Nutch.Просто очистите каталоги crawldb и т. Д. И все готово.

Сначала Nutch ищет готовую базу данных ссылок (linkdb) в пути обхода, если не может найти ее, создает новую из исходного файла, который вы дали.Если вы завершите процесс сканирования, это приведет к сбою чтения из базы данных ссылок.

0 голосов
/ 12 декабря 2011
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

Убедитесь, что папка для сканирования существует и имеет соответствующие разрешения, и вам нужно использовать -linkdb, как указано выше, как в новой версии, но не обязательно.В основном эта ошибка возникает из-за того, что вы указали путь к crawldb linkdb и путь сегментов неправильно указаны.

У меня была та же проблема, что и в приведенном выше синтаксисе:Просто проверьте правильность указанной вами папки.

Используйте это,

http://thetechietutorials.blogspot.com/2011/06/solr-and-nutch-integration.html

сработало для меня.

...