Question

Я хотел бы извлечь содержимое из файла PDF.Я использую Apache Tika 1.15 в качестве инструмента командной строки, вызываемого из скрипта Python.

Проблема, которую я обнаружил в извлеченном контенте XML, заключается в том, что он представлен в основном в виде тегов абзаца HTML.

можно извлечь такой контент с помощью допустимых тегов HTML: <h1>, <strong> и т. д.?Если нет, есть ли у вас опыт работы с другими инструментами с лучшими результатами?

Я искал здесь различные инструменты, и их список довольно большой - к сожалению, эксперименты с каждым из них будут пустой тратой времени.

Извлеките правильный HTML-документ из PDF с Apache Tika

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Извлеките правильный HTML-документ из PDF с Apache Tika

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы