Question

Я пытаюсь использовать Tika в Python для извлечения текста из PDF-файлов. У меня установлена Java 8 в моей системе. Несмотря на это, я не могу преобразовать эти PDF-файлы в текстовый файл. Ниже приведен код, который я использую:

    file_name = file.split('\\')[-1]
    path = "C:/Users/user_name/PDF_Files/"+file_name
    raw = parser.from_file(path)
    name = path.split('/')[-1][:-4]
    print(name)
    file_name = "C:/Users/user_name/PDF_Files/"+name+".txt"
    text_file = open(file_name,"w",encoding="utf-8")
    if raw['content'] is not None:
        text_file = open(file_name,"w",encoding="utf-8")
        text_file.write(raw['content'])
        text_file.close()

 for file in glob.glob("C:/Users/user_name/PDF_Files/*.pdf"):
    gettext(file)

Ниже приведено сообщение об ошибке, которое я получаю после запуска вышеуказанного кода: Сообщение об ошибке

2019-11-07 15: 09: 06,062 [MainThread] [ERROR] Невозможно запустить Java;это установлено? 2019-11-07 15: 09: 06,062 [MainThread] [ОШИБКА] Не удалось получить подтверждение запуска от startServer.

Apache Tika Server Не удалось получить подтверждение запуска от startServer

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Apache Tika Server Не удалось получить подтверждение запуска от startServer

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы