Предупреждающее сообщение от модуля tika python с использованием метода unpack - PullRequest
0 голосов
/ 02 ноября 2018

В настоящее время я использую tika для извлечения текста из PDF-файлов. Я нашел очень быстрый метод в модуле tika. Этот метод называется unpack. Это мой код:

from tika import unpack

text = unpack.from_file('example.pdf')['content']

Однако время от времени (не всегда!) Я получаю это предупреждение:

2018-11-02 15:30:25,533 [MainThread ] [WARNI] Failed to see startup log message; retrying...

После повторной попытки код начинает работать. Тем не менее, я не понимаю предупреждение, а также нужно время, чтобы повторить попытку. У кого-нибудь есть идея, почему я получаю это предупреждение?

Это страница GitHub: https://github.com/chrismattmann/tika-python

1 Ответ

0 голосов
/ 09 ноября 2018

Tika python - это привязка Python к Apache Tika. И как он связывает Apache, Tika взаимодействует через http с помощью службы отдыха, предоставляемой Tika. Если вы запускаете Tika в режиме только клиента, то он просто взаимодействует с предоставленным URL. В противном случае он запускает сервер Apache Tika локально для взаимодействия с ним.

Теперь я предполагаю, что вы не используете Tika в режиме только клиента. Так что в основном библиотека будет вращать сервер Tika Apache. И способ, которым он проверяет, что он успешно породил сервер Tika, проверяет файл журнала Tika на наличие сообщения «« Запущен сервер Apache Tika at ». Эта проверка выполняется рекурсивно до предела с задержкой по времени. См. источник здесь

В основном сообщение, которое вы видите, потому что к моменту первой проверки сервер Apache Tika еще не запущен.

Я не думаю, что предупреждение должно иметь здесь какое-либо значение, поскольку проверка происходит сразу после команды на запуск сервера. Я не уверен, как библиотека должна справиться с этим. Может быть, вы можете утверждать, что это должно быть войти в систему как информация. Также увеличение задержки не поможет, поскольку проверка выполняется сразу после команды запуска.

С другой стороны, я не уверен, обрабатывает ли проверка старые сообщения, как, например, если вы дважды вызываете распаковку, библиотека проверяет, не существует ли файл журнала предыдущего запуска?

...