Question

Я использую tika-app jar для своего проекта и есть ли способ отключить тессерактное распознавание текста в tika.Есть две вещи, которые должны быть сохранены как таковые:

1.tesseract не может быть удален

2.tika.xml не может быть отредактирован, так как tika-app.jar отключенполка

Есть ли способ установить конфигурацию в коде java , установив свойство context или parser для отключения OCR?

Я пробовал приведенный ниже код, но все ещеOCR извлекает текст из файлов изображений во время синтаксического анализа.

            PDFParserConfig pdfConfig = new PDFParserConfig();
            pdfConfig.setOcrStrategy(OCR_STRATEGY.NO_OCR);
            context.set(PDFParserConfig.class, pdfConfig);```

Есть ли способ отключить режим OCR в Тике без удаления тессеракта

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Есть ли способ отключить режим OCR в Тике без удаления тессеракта

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы