Извлеките правильный HTML-документ из PDF с Apache Tika - PullRequest
0 голосов
/ 22 мая 2018

Я хотел бы извлечь содержимое из файла PDF.Я использую Apache Tika 1.15 в качестве инструмента командной строки, вызываемого из скрипта Python.

Проблема, которую я обнаружил в извлеченном контенте XML, заключается в том, что он представлен в основном в виде тегов абзаца HTML.

можно извлечь такой контент с помощью допустимых тегов HTML: <h1>, <strong> и т. д.?Если нет, есть ли у вас опыт работы с другими инструментами с лучшими результатами?

Я искал здесь различные инструменты, и их список довольно большой - к сожалению, эксперименты с каждым из них будут пустой тратой времени.

...