Как обращаться с Tika Server Warning 422, когда проблема не связана с PDF? - PullRequest
0 голосов
/ 09 января 2019

Моя проблема очень похожа на проблему этого человека:

422 Ответ сервера Тика? Тик-Python

Но не совсем. Кажется, у него проблемы с чтением определенных документов, но Тика работает нормально, в то время как для меня документы хороши, но Тика терпит неудачу. Я использовал следующий код Python в прошлом, всего 4 недели назад, без проблем:

from tika import unpack
result = unpack.from_file(file)

[Примечание: я не смог сделать отступ для кода выше. Было бы просто перейти к следующему разделу]

Что происходит, когда я использую этот код, он просто выводит пустой словарь. И я получаю предупреждение:

Сервер Тика вернул статус: 422

Но сообщения об ошибке нет. Это происходит со всеми моими документами PDF, поэтому проблема не в документе PDF. Кроме того, в прошлом я регулярно использовал этот же код без проблем. У меня нет абсолютно никакого опыта работы с Tika, и я использую только эту небольшую строку кода, потому что когда я использую pdfviewer из Python, он не работает. Так что это единственный пакет, который я нашел, который может читать интересующие меня PDF-файлы. Я попытался повторно загрузить Tika с pip install Tika, но требования уже выполнены. Я также попробовал эту командную строку:

java -jar tika-app.jar -s file.pdf

Но я получил сообщение об ошибке:

Ошибка: невозможно получить доступ к jarfile tika-app.jar

Я провел некоторые исследования о том, как обрабатывать эту ошибку, поэтому введите в командной строке:

java -jar tika-server-1.18.jar -h 0.0.0.0

Но это вернуло сообщение:

Ошибка: невозможно получить доступ к jarfile tika-server-1.18.jar

Обычно, когда я использую Tika, происходит то, что приложение запускается, а в этот раз этого не происходит. Возможно, проблема в том, что я не могу запустить приложение. Онлайновая документация по Tika предполагает, что у читателя уже есть достаточно большой опыт программирования на переднем конце, тогда как весь мой опыт связан с программированием с бэкэндом, так что я не могу придумывать головокружительную часть документации Tika.

...