Ошибка индексации данных сканирования Nutch в Elasticsearch - PullRequest
0 голосов
/ 25 августа 2018

Я использую Nutch 1.14 и пытаюсь проиндексировать небольшой веб-обход в ES v5.3.0, и я получаю эту ошибку:

ElasticIndexWriter
    elastic.cluster : elastic prefix cluster
    elastic.host : hostname
    elastic.port : port
    elastic.index : elastic index command 
    elastic.max.bulk.docs : elastic bulk index doc counts. (default 250)
    elastic.max.bulk.size : elastic bulk index length in bytes. (default 2500500)
    elastic.exponential.backoff.millis : elastic bulk exponential backoff initial delay in milliseconds. (default 100)
    elastic.exponential.backoff.retries : elastic bulk exponential backoff max retries. (default 10)
    elastic.bulk.close.timeout : elastic timeout for the last bulk in seconds. (default 600)


Indexer: java.io.IOException: Job failed!
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:873)
    at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:147)
    at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:230)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:239)

Error running:
  /home/david/tutorials/nutch/apache-nutch-1.14-src/runtime/local/bin/nutch index -Delastic.server.url=http://localhost:9300/search-index/ searchcrawl//crawldb -linkdb searchcrawl//linkdb searchcrawl//segments/20180824175802
Failed with exit value 255.

Я уже сделал это и я все еще получаю сообщение об ошибке ...

ОБНОВЛЕНИЕ - Хорошо, я добился прогресса.Индексация, кажется, работает сейчас - больше нет ошибок.Тем не менее, когда я смотрю использование _stats через Kibana для проверки количества документов, я получаю 0, когда Nutch говорит мне следующее:

Segment dir is complete: crawl/segments/20180830115119.
Indexer: starting at 2018-08-30 12:19:31
Indexer: deleting gone documents: false
Indexer: URL filtering: false
Indexer: URL normalizing: false
Active IndexWriters :
ElasticRestIndexWriter
    elastic.rest.host : hostname
    elastic.rest.port : port
    elastic.rest.index : elastic index command 
    elastic.rest.max.bulk.docs : elastic bulk index doc counts. (default 250) 
    elastic.rest.max.bulk.size : elastic bulk index length. (default 2500500 ~2.5MB)


Indexer: number of documents indexed, deleted, or skipped:
Indexer:      9  indexed (add/update)
Indexer: finished at 2018-08-30 12:19:45, elapsed: 00:00:14

Я предполагаю, что ES отправило 9 документов для индексации?

1 Ответ

0 голосов
/ 30 августа 2018

Я использовал Elasticsearch 6.0 с Nutch 1.14, и он работал как шарм, я использовал плагин indexer -astic-rest с портом 9200, я присоединяю свой сайт Nutch. xml для справки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...