Получение 404 для / solr / update / extract на Solr 1.4.1 и Tika 0.4 - PullRequest
1 голос
/ 21 июля 2011

Я успешно установил Solr 1.4.1, но не могу заставить Tika 0.4 (которая включена в contrib / extract) работать правильно.Я получаю сообщение об ошибке 404 при попытке нажать http://localhost:8080/solr/ss/update/extract ("ss" - это мое ядро).

Я переместил все jar contrib / extract в каталог WEB-INFSolr после его развертывания, а также jar "solr-cell", который находится в каталоге "dist".

Метод, который я использовал выше, работал для Solr 3.3, но в Tika 0.8 синтаксический анализ PDF не работаетПоэтому я решил вернуться к Solr 1.4.1 и Tika 0.4.

Я использую Tomcat 7.0, если это поможет.

Ответы [ 2 ]

1 голос
/ 24 ноября 2015

Я использовал django_haystack с Solr 5.3.1, и при настройке schema.xml и столкнулся с той же проблемой, я хотел бы добавить к ответу Трэвиса.

Строки, которые нужно добавить в solrconfig.xml, следующие:

Под определением версии Lucene

<luceneMatchVersion>5.3.1</luceneMatchVersion>

Добавьте эти библиотеки импорта (я взял их из файлов примеров):

<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/contrib/dataimporthandler/lib/" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />

<lib dir="${solr.install.dir:../../../..}/contrib/extraction/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-cell-\d.*\.jar" />

<lib dir="${solr.install.dir:../../../..}/contrib/clustering/lib/" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-clustering-\d.*\.jar" />

<lib dir="${solr.install.dir:../../../..}/contrib/langid/lib/" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-langid-\d.*\.jar" />

<lib dir="${solr.install.dir:../../../..}/contrib/velocity/lib" regex=".*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-velocity-\d.*\.jar" />

Затем добавьте requestHandler для /update/extract рядом с любым уже определенным requestHandler

<requestHandler name="/update/extract"
  startup="lazy"
  class="solr.extraction.ExtractingRequestHandler" >
  <lst name="defaults">
    <str name="lowernames">true</str>
    <str name="uprefix">ignored_</str>

    <!-- capture link hrefs but ignore div attributes -->
    <str name="captureAttr">true</str>
    <str name="fmap.a">links</str>
    <str name="fmap.div">ignored_</str>
  </lst>
</requestHandler>

Надеюсь, это поможет.

1 голос
/ 22 июля 2011

Я решил проблему.

Я скопировал многоядерные каталоги ("core0" и "core1" в example / multicore), и они использовали ОЧЕНЬ СТРОЧНЫЕ ВНИЗ версии solrconfig.xml.Я сослался на пример по умолчанию (находится в example / solr) и взял раздел «requestHandler» для «update / extract», поместил его в урезанную версию моего solrconfig.xml и перезапустил веб-приложение Solr в Tomcat и теперь файлРазбор работает отлично.

Надеюсь, это поможет кому-то еще.

...