Я хотел бы извлечь содержимое из файла PDF.Я использую Apache Tika 1.15 в качестве инструмента командной строки, вызываемого из скрипта Python.
Проблема, которую я обнаружил в извлеченном контенте XML, заключается в том, что он представлен в основном в виде тегов абзаца HTML.
можно извлечь такой контент с помощью допустимых тегов HTML: <h1>
, <strong>
и т. д.?Если нет, есть ли у вас опыт работы с другими инструментами с лучшими результатами?
Я искал здесь различные инструменты, и их список довольно большой - к сожалению, эксперименты с каждым из них будут пустой тратой времени.