Я использую Apache Tika для распознавания нескольких PDF-файлов. Когда я использую графический интерфейс (выполняя java -jar tika-app-1.22.jar
), все работает нормально: я захожу в «Рекурсивный JSON» в меню «Вид», и все текст там (хотя в «Основном контенте» ничего не отображается). Но когда я использую обертку Python , я не вижу никакой возможности извлечь какие-либо объекты "Рекурсивный JSON";и print(parsed['content'])
возвращает пустую строку. (Хотя print(parsed['metadata'])
возвращает метаданные правильно. Но мне нужно содержимое.) Что мне не хватает?
(Apache Tika 1.22, Python 3.6.8, macOS 10.14.6)