Solr извлечь текст из изображений и изображений PDF-файлов - PullRequest
0 голосов
/ 06 сентября 2018

Я работаю с Solr-6.5.1, я хочу извлечь текст из файла изображения и файла ImagePdf. Для этого я установил TesseractOcr и настроил это с помощью solr двумя способами:

1. Переменная окружения установлена ​​для TESSDATA_PREFIX = C: \ Program Files (x86) \ Tesseract-OCR, и я использовал / update / extract обработчик запроса для индексирования изображения с содержимым.

2.Я изменил файл tesseractOCRConfig.properties в jar-файле tika-parsers-1.13 в solr lib на «tesseractPath = C: / Program Files (x86) / Tesseract-OCR» и использовал обработчик запроса / update / extract для index image / imagePdf с контентом.

В этом случае я тоже не получаю никакого контента, но отвечаю только attr_x_parsed_by = org.apache.tika.parser.ocr.TesseractOCRParser.

Любая другая конфигурация, которую мне нужно установить для solr в TesseractOcr, чтобы извлечь содержимое для файла Image / ImagePdf. Заранее спасибо.

...