Как отключить OCR в Tika для каждого запроса? - PullRequest
0 голосов
/ 25 сентября 2019

Apache Tika автоматически выполняет OCR, используя Tesseract в фоновом режиме.Я использую конечную точку /rmeta/xml сервера Tika.Это работает хорошо:

curl -T /tmp/image.png http://localhost:9998/rmeta/xml --header "Accept: application/json" --header "Content-type: image/png"

Но как мне отключить OCR для выбранных запросов ?

Обратите внимание, что я не заинтересован в отключенииOCR в целом (как описано здесь ).Я хочу включать и выключать его динамически, при каждом запросе файла к серверу Tika.

Я использую Tika-сервер 1.21, с Tesseract 4.0.0.

...