Моя проблема очень похожа на проблему этого человека:
422 Ответ сервера Тика? Тик-Python
Но не совсем. Кажется, у него проблемы с чтением определенных документов, но Тика работает нормально, в то время как для меня документы хороши, но Тика терпит неудачу. Я использовал следующий код Python в прошлом, всего 4 недели назад, без проблем:
from tika import unpack
result = unpack.from_file(file)
[Примечание: я не смог сделать отступ для кода выше. Было бы просто перейти к следующему разделу]
Что происходит, когда я использую этот код, он просто выводит пустой словарь. И я получаю предупреждение:
Сервер Тика вернул статус: 422
Но сообщения об ошибке нет. Это происходит со всеми моими документами PDF, поэтому проблема не в документе PDF. Кроме того, в прошлом я регулярно использовал этот же код без проблем. У меня нет абсолютно никакого опыта работы с Tika, и я использую только эту небольшую строку кода, потому что когда я использую pdfviewer из Python, он не работает. Так что это единственный пакет, который я нашел, который может читать интересующие меня PDF-файлы. Я попытался повторно загрузить Tika с pip install Tika
, но требования уже выполнены. Я также попробовал эту командную строку:
java -jar tika-app.jar -s file.pdf
Но я получил сообщение об ошибке:
Ошибка: невозможно получить доступ к jarfile tika-app.jar
Я провел некоторые исследования о том, как обрабатывать эту ошибку, поэтому введите в командной строке:
java -jar tika-server-1.18.jar -h 0.0.0.0
Но это вернуло сообщение:
Ошибка: невозможно получить доступ к jarfile tika-server-1.18.jar
Обычно, когда я использую Tika, происходит то, что приложение запускается, а в этот раз этого не происходит. Возможно, проблема в том, что я не могу запустить приложение. Онлайновая документация по Tika предполагает, что у читателя уже есть достаточно большой опыт программирования на переднем конце, тогда как весь мой опыт связан с программированием с бэкэндом, так что я не могу придумывать головокружительную часть документации Tika.