Python, как использовать Tika с существующим файлом JAR без повторной загрузки - PullRequest
1 голос
/ 12 июня 2019

Я использую Tika, и я понял, что каждый раз, когда файл jar загружается и помещается в папку Temp

Retrieving http://search.maven.org/remotecontent?filepath=org/apache/tika/tika-server/1.19/tika-server-1.19.jar to C:\Users\asus\AppData\Local\Temp\tika-server.jar.
Retrieving http://search.maven.org/remotecontent?filepath=org/apache/tika/tika-server/1.19/tika-server-1.19.jar.md5 to C:\Users\asus\AppData\Local\Temp\tika-server.jar.md5.

Проблема в том, что размер файла jar составляет около 60 МБ, что занимает некоторое времяскачать.

Это код, который я использую:

from tika import parser

def get_pdf_text(path):
    parsed = parser.from_file(path):
    return parsed['content']

Единственный найденный мной обходной путь:

1 - ручной запуск банки с помощью java -jar tika-server-x.x.jar --port xxxx

2 - Использование tika.TikaClientOnly = True

3 - Замена parser.from_file(path) на parser.from_file(path, '/path/to/server')

Но я не хочу запускать файл jar вручную.Было бы лучше, если бы я мог использовать Python для автоматического запуска jar-файла и установки с ним tika без повторной загрузки.

...