Поддержка OCR с Tesseract через SOLR - PullRequest
0 голосов
/ 16 января 2020

Добрый день, я пытаюсь настроить SOLR для использования Tesseract OCR движка для извлечения текста из изображений, но пока не увенчался успехом.

SOLR извлечение мелкого текста из документов структурированного текста (. xls, .pdf, do c, et c), но он не хочет вызывать модуль Tesseract для распознавания текста.

Я использую

  • SOLR v .7.4.0
  • Версия Tesseract 4.1.1
  • Версия TIKA 1.18 (встроенная в SOLR, автономная версия отсутствует)

Tesseract установлен в следующий каталог:

/usr/share/tesseract/4/tessdata/
echo $TESSDATA_PREFIX - > /usr/share/tesseract/4/tessdata/
tesseract -v
tesseract 4.1.1-rc2-20-g01fb
leptonica-1.76.0
  libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0

Команда tesseract test.jpg test.txt создает точный текстовый файл с OCRed содержимым из test.jpg.

solrconfig. xml, TesseractOCRConfig.properties , ParseContent. xml Файлы были изменены, чтобы указывать на Tesseract установки.

Кто-нибудь делал такую ​​конфигурацию?

1 Ответ

0 голосов
/ 22 января 2020

Добрый день, мы разрешили ситуацию. Вот что использовалось и изменялось: В нашей установке мы использовали Tesseract версии 3.05, Tika версии 1.17, SOLR версии 7.4. На самом деле у нас была версия TIKA 1.17, а не 18. 1. Изменен с HOCR на TXT >>> в файле parseContext. xml 2. Пришлось запустить SOLR как пользователь root. Версия 4.1.1 не совместима с TIKA 1.17, поэтому мы обновим SOLR до версии 7.7, TIKA версии 1.19 и попытаемся установить Tesseract 4.1.1 введите описание изображения здесь

...