Превосходный lib tika-python в документации по https://github.com/chrismattmann/tika-python показывает, что можно установить файл tika_server.jar, чтобы избежать загрузки при каждом использовании алгоритма.Кто-нибудь сделал это и может опубликовать конфигурацию?
При первом использовании алгоритма загружается tika_server.jar, чтобы lib мог его использовать.Я хочу избежать этой загрузки, установив файл локально.
Извлечение текста из PDF
def extraiPDF(f):
resultado = []
tika.TikaClientOnly = True
raw = parser.from_file(f)
metadados = raw["metadata"]
conteudo = raw["content"]
conteudo = (conteudo).replace('\n', '').replace('\r\n', '').replace('\r', '').replace('\\', '').replace('\t', ' ')
resultado.append(conteudo)
resultado.append(metadados)
return resultado