Добрый день, я пытаюсь настроить SOLR
для использования Tesseract OCR
движка для извлечения текста из изображений, но пока не увенчался успехом.
SOLR извлечение мелкого текста из документов структурированного текста (. xls, .pdf, do c, et c), но он не хочет вызывать модуль Tesseract для распознавания текста.
Я использую
- SOLR v .7.4.0
- Версия Tesseract 4.1.1
- Версия TIKA 1.18 (встроенная в SOLR, автономная версия отсутствует)
Tesseract установлен в следующий каталог:
/usr/share/tesseract/4/tessdata/
echo $TESSDATA_PREFIX - > /usr/share/tesseract/4/tessdata/
tesseract -v
tesseract 4.1.1-rc2-20-g01fb
leptonica-1.76.0
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0
Команда tesseract test.jpg test.txt
создает точный текстовый файл с OCRed содержимым из test.jpg.
solrconfig. xml, TesseractOCRConfig.properties , ParseContent. xml Файлы были изменены, чтобы указывать на Tesseract установки.
Кто-нибудь делал такую конфигурацию?