Индексирование Nutch с Solr - PullRequest
       94

Индексирование Nutch с Solr

0 голосов
/ 16 октября 2018

Я очень новичок в Nutch и solr, мне нужно скачать контент из pdf с определенного URL, получаю сообщение об ошибке в Nutch, кто-нибудь может мне помочь с этим., Заранее спасибо ..

$ bin / nutch генерировать crawl / crawldb crawl / сегменты Генератор: начиная с 2018-10-16 11:28:09 Генератор: выбор URL с лучшими показателями для выборки.Генератор: фильтрация: правда Генератор: нормализация: правда Генератор: работает в локальном режиме, генерируя ровно один раздел.Задание генератора не выполнено, состояние задания: СБОЙ, причина: нет. Генератор: java.lang.RuntimeException: Задание генератора не выполнено, состояние задания: не выполнено, причина: нет на org.apache.nutch.crawl.Generator.generate (Генератор.java: 802) в org.apache.nutch.crawl.Generator.run (Generator.java:1008) в org.apache.hadoop.util.ToolRunner.run (ToolRunner.java:70) `` в org.apache.nutch.crawl.Generator.main (Generator.java:957)

1 Ответ

0 голосов
/ 17 октября 2018

Исходя из вашего файла журнала, ваш nutch-site.xml не является допустимым XML-документом, а index-writers.xml настроен неправильно.

Я предлагаю просмотреть файл журнала и прочитать документацию.на https://wiki.apache.org/nutch/IndexWriters, исправление, повторный запуск и повторная проверка журнала.

...