Apache Solr - индексирование файлов PDF - PullRequest
0 голосов
/ 30 марта 2012

Привет, я попытался сделать это с помощью двоичного дистрибутива, а также скомпилировал исходный код самостоятельно.Пробовал запускать это и с Apache Tomcat.Но я всегда получаю следующую ошибку, когда я использую PDF-файл для целей индексации.Я использую post.jar, предоставленный в примере проекта с Solr.

SimplePostTool: version 1.3
SimplePostTool: POSTing files to http://localhost:8983/solr/update..
SimplePostTool: POSTing file 4538a001.pdf
SimplePostTool: FATAL: Solr returned an error #400 Invalid UTF-8 middle byte 0xe
3 (at char #10, byte #-1)

Я также пытался запустить это как на Win 7 (JDK 1.7), так и на Centos (1.6).* Я искал в интернете и на трекере ошибок нашел пропатченные версии jar-файлов Jetty, но даже после их замены проблема все еще сохраняется.дальнейшие задачи.

Спасибо

1 Ответ

3 голосов
/ 30 марта 2012

Обновления Solr представляют собой определенный формат XML, поэтому он отклоняет файл PDF.

Вы можете настроить обработчик извлечения запроса, который будет анализировать файл PDF, а затем обрабатывать извлеченный текст как обновление.

См .: http://wiki.apache.org/solr/ExtractingRequestHandler

...