Question

Я настраиваю solr для извлечения текста из изображения. Я установил tesseractOCR и добавил путь к TesseractOCRConfig.properties файла tika-parser jar. Но я не могу извлечь текст из изображения. Когда я запускаю его, используя tesseract для извлечения изображения, он работает нормально. Есть ли способ проверить с помощью tika jar, правильно ли он вызывает тессеракт или нет. Я попытался настроить на 2 windows машине, но не повезло. В solr даже я могу найти следующее в файле свойств parsed_by, org.apache.tika.parser.DefaultParser, org.apache.tika.parser.ocr.TesseractOCRParser, org.apache.tika.parser.image.ImageParser

: tesseractPath = E: / solr / Tesseract-OCR language = eng Нужно ли мне загружать и запускать tika-server-1.23.jar ? Я видел все возможные доступные ссылки, не мог найти ничего, что работает для меня.

Solr Tika конфигурация тессеракт для извлечения текста из изображения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Solr Tika конфигурация тессеракт для извлечения текста из изображения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы