Я пытаюсь использовать Tika в Python для извлечения текста из PDF-файлов. У меня установлена Java 8 в моей системе. Несмотря на это, я не могу преобразовать эти PDF-файлы в текстовый файл. Ниже приведен код, который я использую:
file_name = file.split('\\')[-1]
path = "C:/Users/user_name/PDF_Files/"+file_name
raw = parser.from_file(path)
name = path.split('/')[-1][:-4]
print(name)
file_name = "C:/Users/user_name/PDF_Files/"+name+".txt"
text_file = open(file_name,"w",encoding="utf-8")
if raw['content'] is not None:
text_file = open(file_name,"w",encoding="utf-8")
text_file.write(raw['content'])
text_file.close()
for file in glob.glob("C:/Users/user_name/PDF_Files/*.pdf"):
gettext(file)
Ниже приведено сообщение об ошибке, которое я получаю после запуска вышеуказанного кода: Сообщение об ошибке
2019-11-07 15: 09: 06,062 [MainThread] [ERROR] Невозможно запустить Java;это установлено? 2019-11-07 15: 09: 06,062 [MainThread] [ОШИБКА] Не удалось получить подтверждение запуска от startServer.