как получить доступ к объекту Apache Tika recursiveJSON, используя python-tika? - PullRequest
0 голосов
/ 07 октября 2019

Я использую Apache Tika для распознавания нескольких PDF-файлов. Когда я использую графический интерфейс (выполняя java -jar tika-app-1.22.jar), все работает нормально: я захожу в «Рекурсивный JSON» в меню «Вид», и все текст там (хотя в «Основном контенте» ничего не отображается). Но когда я использую обертку Python , я не вижу никакой возможности извлечь какие-либо объекты "Рекурсивный JSON";и print(parsed['content']) возвращает пустую строку. (Хотя print(parsed['metadata']) возвращает метаданные правильно. Но мне нужно содержимое.) Что мне не хватает?

(Apache Tika 1.22, Python 3.6.8, macOS 10.14.6)

...