Дай Тике еще одну попытку? Из других постов я понял, что это довольно хорошее решение.
Я смог установить тика из инструкции здесь:
https://github.com/chrismattmann/tika-python
и успешно проанализировать тестpdf файл.
ШАГИ, КОТОРЫЕ Я СЛЕДУЕТ ИСПОЛЬЗОВАТЬ TIKA С PYTHON:
1) Установка (с помощью pip):
pip install tika
2) Создать и запустить скрипт тестового Python: (конечно, замените myfile.pdf на путь к вашему собственному файлу pdf)
#!/usr/bin/env python
import tika
tika.initVM()
from tika import parser
parsedPDF = parser.from_file('myfile.pdf')
print(parsedPDF["metadata"])
print(parsedPDF["content"])
Обратите внимание, что из-за вашей ошибки, когда сервер tika не запускается, вы можете также проверить этот пост:
Использовать tika с python, runtimeerror: не удалось запустить сервер tika
В настоящее время наиболее одобренный ответ на этот пост в основном говорит, что у вас установлена Java, иваша установка на Java 8, так как для всех новых версий tika-server.jar потребуется Java 8.
Надеюсь, это поможет, и удачи!