Apache Tika Server - Параметры заголовка запроса? - PullRequest
0 голосов
/ 26 мая 2020

Сервер Apache Tika предоставляет Rest API для извлечения текста из документа. Также возможно установить определенные c параметры заголовка запроса, например X-Tika-PDFOcrStrategy. например:

$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"

Из множества различных документов о tika я нашел эти задокументированные дополнительные параметры заголовка:

X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only  |  ocr_and_text_extraction
X-Tika-OCRoutputType: hocr

Но, похоже, нет документации о том, как использовать X-Tika-.....? параметры заголовка или какие параметры поддерживаются, а какие нет.

Например, мне интересно, можно ли перезаписать режим ImageType или DPI с чем-то вроде:

X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100

Мой вопрос: : Какие параметры заголовка поддерживаются и какому соглашению об именах следовали эти параметры?

1 Ответ

1 голос
/ 26 мая 2020

Код, обрабатывающий заголовки X-Tika-OCR и X-Tika-PDF: TikaResource.processHeaderConfig .

Эти суффиксы и значения заголовков затем отображаются на объекты конфигурации TesseractOCRConfig и PDFParserConfig через отражение.

Итак, чтобы увидеть, что X-Tika заголовки, которые вы можете установить, найдите параметры в классе конфигурации, который вы хотите настроить ( Tesseract или PDF ), затем создайте имя, затем установите заголовок. Если вы не уверены, что делает этот параметр или какие значения он принимает, посмотрите в JavaDocs базовый метод установки, который будет вызван.

Например, setExtractInlineImages в PDF, который отображает на X-Tika-PDFextractInlineImages

...