Работа Nutch терпит неудачу при соединении шага с solr - PullRequest
0 голосов
/ 13 января 2019

Я настроил Nutch и Solr, и они работают. Я использую Solr для индексации сканированных документов Nutch. Однако обмен данными между ними (команда linkdb) не выполняется. Я нашел похожие темы, но ни одно из решений не работает для меня. Аналогичный поток ( Сбой задания Nutch при отправке данных в Solr )

Я настроил файлы конфигурации, следуя этому сообщению: https://www.cs.toronto.edu/~muuo/blog/build-yourself-a-mini-search-engine/

Версии: Nutch 1.14 (https://archive.apache.org/dist/nutch/1.14/apache-nutch-1.14-bin.tar.gz) Solr 6,6 (http://mirror.dsrg.utoronto.ca/apache/lucene/solr/6.6.5/solr-6.6.5.tgz)

Я попытался использовать недавний файл schema.xml из https://github.com/apache/nutch/blob/master/conf/schema.xml, как указано в Nutch Wiki.

Я начинаю код с

 nutch/bin/crawl -i -D solr.server.url=http://localhost:8983/solr/nutch -s nutch/urls/ Crawl 2

Разрывается с

/home/sk/SearchEngine/nutch/bin/nutch index -Dsolr.server.url=http://localhost:8983/solr/nutch Crawl/crawldb -linkdb Crawl/linkdb Crawl/segments/20190112160715
Failed with exit value 255.

Ошибка:

Active IndexWriters :
SOLRIndexWriter
    solr.server.url : URL of the SOLR instance
    solr.zookeeper.hosts : URL of the Zookeeper quorum
    solr.commit.size : buffer size when sending to SOLR (default 1000)
    solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml)
    solr.auth : use authentication (default false)
    solr.auth.username : username for authentication
    solr.auth.password : password for authentication


Indexing 87/87 documents
Deleting 0 documents
Indexing 87/87 documents
Deleting 0 documents
Indexer: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:873)
    at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:147)
    at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:230)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:239)

Error running:
  /home/sk/SearchEngine/nutch/bin/nutch index -Dsolr.server.url=http://localhost:8983/solr/nutch Crawl/crawldb -linkdb Crawl/linkdb Crawl/segments/20190112160715
Failed with exit value 255.
...