Сервер Apache Tika предоставляет Rest API для извлечения текста из документа. Также возможно установить определенные c параметры заголовка запроса, например X-Tika-PDFOcrStrategy
. например:
$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"
Из множества различных документов о tika я нашел эти задокументированные дополнительные параметры заголовка:
X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only | ocr_and_text_extraction
X-Tika-OCRoutputType: hocr
Но, похоже, нет документации о том, как использовать X-Tika-.....?
параметры заголовка или какие параметры поддерживаются, а какие нет.
Например, мне интересно, можно ли перезаписать режим ImageType или DPI с чем-то вроде:
X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100
Мой вопрос: : Какие параметры заголовка поддерживаются и какому соглашению об именах следовали эти параметры?