зачем указывать на неправильную коллекцию solr, даже если установлен параметр solr.server.url? - PullRequest
0 голосов
/ 23 марта 2019

интегрировать Nutch 1.15 с solr8.0, но когда я использую следующую команду

nutch/bin/crawl -i -D solr.server.url=http://192.168.199.109:8983/solr/csdn -s ./csdn-seed/ ./data/csdn 1

для индексации просканированных данных изнутри, чтобы выяснить это, исключить исключение из hadoop.log

<code>2019-03-23 02:03:07,491 WARN  mapred.LocalJobRunner - job_local1877827743_0001
java.lang.Exception: org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException: Error from server at http://localhost:8983/solr/nutch: Expected mime type application/octet-stream but got text/html. <html>
<head>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8"/>
<title>Error 404 Not Found</title>
</head>
<body><h2>HTTP ERROR 404</h2>
<p>Problem accessing /solr/nutch/update. Reason:
<pre>    Not Found
в org.apache.hadoop.mapred.LocalJobRunner $ Job.runTasks (LocalJobRunner.java:462) в org.apache.hadoop.mapred.LocalJobRunner $ Job.run (LocalJobRunner.java:529) Вызвано: org.apache.solr.client.solrj.impl.HttpSolrClient $ RemoteSolrException: ошибка сервера на http://localhost:8983/solr/nutch: Ожидается приложение MIME-типа / октет-поток, но получен текст / HTML. Ошибка 404 не найдена

ОШИБКА HTTP 404

Проблема с доступом / solr / nutch / update. Причина:

    Not Found

но на самом деле я установил для solr.server.url значение / solr / csdn не так ли? но почему он сказал мне, что он индексирует к / solr / nutch ?

1 Ответ

0 голосов
/ 24 марта 2019

Способ конфигурирования подключаемых модулей индексатора изменился в Nutch 1.15: теперь все подключаемые модули индексатора настроены в одном файле XML (conf / index-writers.xml), настройка или перезапись параметров конфигурации через свойства Nutch больше невозможна.См. https://wiki.apache.org/nutch/IndexWriters, как настроить URL-адрес сервера Solr.Это критическое изменение было необходимо для разрешения нескольких индексаторов одного типа, например, нескольких экземпляров Solr.

...