Использование pdftohtml .
Может быть установлено с brew install pdftohtml
.Это добавляет pdftohtml
к вашему пути.
Итак, чтобы преобразовать pdf в xml, вы можете запустить pdftohtml -xml your_file.pdf your_file.xml
В python вы можете использовать следующие строки:
import os
cmd = 'pdftohtml -xml your_file.pdf your_file'
os.system(cmd)
! Обратите внимание, что pdftohtml автоматически добавляет расширение 'xml' для ввода второго файла