Есть ли способ отключить режим OCR в Тике без удаления тессеракта - PullRequest
0 голосов
/ 21 мая 2019

Я использую tika-app jar для своего проекта и есть ли способ отключить тессерактное распознавание текста в tika.Есть две вещи, которые должны быть сохранены как таковые:

1.tesseract не может быть удален

2.tika.xml не может быть отредактирован, так как tika-app.jar отключенполка

Есть ли способ установить конфигурацию в коде java , установив свойство context или parser для отключения OCR?

Я пробовал приведенный ниже код, но все ещеOCR извлекает текст из файлов изображений во время синтаксического анализа.

            PDFParserConfig pdfConfig = new PDFParserConfig();
            pdfConfig.setOcrStrategy(OCR_STRATEGY.NO_OCR);
            context.set(PDFParserConfig.class, pdfConfig);```
...