Apache Tika автоматически выполняет OCR, используя Tesseract в фоновом режиме.Я использую конечную точку /rmeta/xml
сервера Tika.Это работает хорошо:
curl -T /tmp/image.png http://localhost:9998/rmeta/xml --header "Accept: application/json" --header "Content-type: image/png"
Но как мне отключить OCR для выбранных запросов ?
Обратите внимание, что я не заинтересован в отключенииOCR в целом (как описано здесь ).Я хочу включать и выключать его динамически, при каждом запросе файла к серверу Tika.
Я использую Tika-сервер 1.21, с Tesseract 4.0.0.