Я работаю с Solr-6.5.1, я хочу извлечь текст из файла изображения и файла ImagePdf. Для этого я установил TesseractOcr и настроил это с помощью solr двумя способами:
1. Переменная окружения установлена для TESSDATA_PREFIX = C: \ Program Files (x86) \ Tesseract-OCR, и я использовал / update / extract обработчик запроса для индексирования изображения с содержимым.
2.Я изменил файл tesseractOCRConfig.properties в jar-файле tika-parsers-1.13 в solr lib на «tesseractPath = C: / Program Files (x86) / Tesseract-OCR» и использовал обработчик запроса / update / extract для index image / imagePdf с контентом.
В этом случае я тоже не получаю никакого контента, но отвечаю только attr_x_parsed_by = org.apache.tika.parser.ocr.TesseractOCRParser.
Любая другая конфигурация, которую мне нужно установить для solr в TesseractOcr, чтобы извлечь содержимое для файла Image / ImagePdf.
Заранее спасибо.