Я использую tika-app jar для своего проекта и есть ли способ отключить тессерактное распознавание текста в tika.Есть две вещи, которые должны быть сохранены как таковые:
1.tesseract не может быть удален
2.tika.xml не может быть отредактирован, так как tika-app.jar отключенполка
Есть ли способ установить конфигурацию в коде java , установив свойство context или parser для отключения OCR?
Я пробовал приведенный ниже код, но все ещеOCR извлекает текст из файлов изображений во время синтаксического анализа.
PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setOcrStrategy(OCR_STRATEGY.NO_OCR);
context.set(PDFParserConfig.class, pdfConfig);```