Получение ExtractingRequestHandler для работы в Solr - PullRequest
4 голосов
/ 27 октября 2011

Я пытаюсь заставить Solr работать с Tika, чтобы я мог проиндексировать документы Word и PDF на своем веб-сайте Drupal.

Я посмотрел вики-страницу и эту страницу , и они указывают на добавление requestHandler в solrconfig.xml.

Я так и сделал, и теперь Солр выдает исключение:

org.apache.solr.common.SolrException: Ошибка при загрузке класса 'org.apache.solr.handler.extraction.ExtractingRequestHandler'

Я провел некоторые поиски и вижу, что у других была эта проблема, но не вижу легкого решения. Я использую Solr 3.4.0 на Windows Server 2003 . Любые идеи о том, как решить эту проблему?

В качестве примечания, у меня есть Drupal, использующий Solr для поиска, и это работает. Но то, что я не могу получить, - это использовать Solr для индексирования документов PDF и Word. Я уверен, что это обычная потребность для большинства веб-сайтов, но я потратил на это дни и не могу поверить, что это плохо документировано и трудно понять.

1 Ответ

4 голосов
/ 27 октября 2011

Если вы запускаете Solr из примера каталога с настройкой Jetty, он должен работать без изменений.

Однако, для многоядерной установки вам нужно будет скопировать jar-файлы в libdirectory .

Если вы проверяете solrconfig в папках примеров, он включает файлы jar для ячейки solr и библиотеки извлечения.

solrconfig.xml -

Раскомментируйтестрока для включения всех библиотек jar -

<lib dir="./lib" />

Скопируйте файлы jar из этих папок в вашу многоядерную папку lib.Эти банки используются для извлечения.(Apache pdfbox, poi, fontbox и т. Д.)

<lib dir="../../dist/" regex="apache-solr-cell-\d.*\.jar" />
<lib dir="../../contrib/extraction/lib" />

Когда вы запустите Solr, вы должны увидеть все загруженные банки.Должен заставить тебя работать.

...