Solr ExtractingRequestHandler Извлечение текста в формате PDF - PullRequest
0 голосов
/ 08 ноября 2011

У меня проблема с извлечением текста из PDF в Solr. Solr использует Apache Tika для извлечения текста из файла PDF, а Tika для этого использует PDFBox. Когда я отправляю свой файл PDF в Solr, он успешно извлекает текст, но текст полностью испорчен. Нечто подобное

MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht

Но когда я извлекаю тот же файл PDF напрямую с помощью PDFBox в командной строке с помощью следующей команды, я получаю хороший результат.

java -jar pdfbox-app-1.6.0.jar ExtractText -console test.pdf

Я не знаю, какая версия Tika или лучше, какая версия PDFBox используется solr. Я даже не могу найти библиотеку для этого в файле solr war ... Все библиотеки в lib dir следующие:

09.09.2011  09:06    <DIR>          .
09.09.2011  09:06    <DIR>          ..
09.09.2011  09:06         1.421.869 apache-solr-core-3.4.0.jar
07.09.2011  13:12            22.478 apache-solr-noggit-r1099557.jar
09.09.2011  09:06           281.626 apache-solr-solrj-3.4.0.jar
07.09.2011  13:12           188.671 commons-beanutils-1.7.0.jar
07.09.2011  13:12            58.160 commons-codec-1.4.jar
07.09.2011  13:12           575.389 commons-collections-3.2.1.jar
07.09.2011  13:12            27.361 commons-csv-1.0-SNAPSHOT-r966014.jar
07.09.2011  13:12            57.779 commons-fileupload-1.2.1.jar
07.09.2011  13:12           305.001 commons-httpclient-3.1.jar
07.09.2011  13:12           109.043 commons-io-1.4.jar
07.09.2011  13:12           257.923 commons-lang-2.4.jar
07.09.2011  13:12            28.804 geronimo-stax-api_1.0_spec-1.0.1.jar
07.09.2011  13:12           932.554 guava-r05.jar
07.09.2011  13:12            17.308 jcl-over-slf4j-1.6.1.jar
07.09.2011  13:12            12.359 log4j-over-slf4j-1.6.1.jar
09.09.2011  09:04           850.852 lucene-analyzers-3.4.0.jar
09.09.2011  09:02         1.398.580 lucene-core-3.4.0.jar
09.09.2011  09:04            61.997 lucene-grouping-3.4.0.jar
09.09.2011  09:04            83.615 lucene-highlighter-3.4.0.jar
09.09.2011  09:04            30.214 lucene-memory-3.4.0.jar
09.09.2011  09:04            69.797 lucene-misc-3.4.0.jar
09.09.2011  09:04            45.979 lucene-queries-3.4.0.jar
09.09.2011  09:04            57.912 lucene-spatial-3.4.0.jar
09.09.2011  09:04            62.164 lucene-spellchecker-3.4.0.jar
07.09.2011  13:12            25.496 slf4j-api-1.6.1.jar
07.09.2011  13:12             8.890 slf4j-jdk14-1.6.1.jar
07.09.2011  13:12           419.521 velocity-1.6.1.jar
07.09.2011  13:12           309.896 velocity-tools-2.0-beta3.jar
07.09.2011  13:12           520.969 wstx-asl-3.2.7.jar
              29 Datei(en)      8.242.207 Bytes
               2 Verzeichnis(se), 21.805.932.544 Bytes frei

Я был бы очень рад, если бы кто-нибудь нашел решение для этого.

1 Ответ

2 голосов
/ 08 ноября 2011

Solr хранит дополнительные файлы jar для Tika и его зависимостей в отдельной папке, которые не упакованы как часть развертываемого Solr.

Для Solr 3.4 -

Если у вас есть ствол Solr, банки можно увидеть в папке solr/contrib/extraction/lib

В подрывной деятельности вы можете найти jars @ path , что pdfbox-1.3.1.jar

В магистрали для Solr установлена ​​последняя версия pdfbox-1.6.0.jar.

...