Solr Tika конфигурация тессеракт для извлечения текста из изображения - PullRequest
0 голосов
/ 30 января 2020

Я настраиваю solr для извлечения текста из изображения. Я установил tesseractOCR и добавил путь к TesseractOCRConfig.properties файла tika-parser jar. Но я не могу извлечь текст из изображения. Когда я запускаю его, используя tesseract для извлечения изображения, он работает нормально. Есть ли способ проверить с помощью tika jar, правильно ли он вызывает тессеракт или нет. Я попытался настроить на 2 windows машине, но не повезло. В solr даже я могу найти следующее в файле свойств parsed_by, org.apache.tika.parser.DefaultParser, org.apache.tika.parser.ocr.TesseractOCRParser, org.apache.tika.parser.image.ImageParser

: tesseractPath = E: / solr / Tesseract-OCR language = eng Нужно ли мне загружать и запускать tika-server-1.23.jar ? Я видел все возможные доступные ссылки, не мог найти ничего, что работает для меня.

...