Как установить TIKA_SERVER_ENDPOINT из библиотеки tika-python - PullRequest
0 голосов
/ 30 июня 2019

Превосходный lib tika-python в документации по https://github.com/chrismattmann/tika-python показывает, что можно установить файл tika_server.jar, чтобы избежать загрузки при каждом использовании алгоритма.Кто-нибудь сделал это и может опубликовать конфигурацию?

При первом использовании алгоритма загружается tika_server.jar, чтобы lib мог его использовать.Я хочу избежать этой загрузки, установив файл локально.

Извлечение текста из PDF

def extraiPDF(f):
    resultado = []
    tika.TikaClientOnly = True
    raw = parser.from_file(f)
    metadados = raw["metadata"]
    conteudo  = raw["content"] 
    conteudo  = (conteudo).replace('\n', '').replace('\r\n', '').replace('\r', '').replace('\\', '').replace('\t', ' ')
    resultado.append(conteudo)
    resultado.append(metadados)
    return resultado
...