Есть ли какой-либо метод в Ruby или Python для преобразования PDF в XML - PullRequest
2 голосов
/ 20 июля 2011

Недавно у меня появилось требование, как будто мне нужно конвертировать pdf файлы в xml. Пожалуйста, скажите мне, как это сделать на языках программирования Python или Ruby. пожалуйста, ответьте на мой вопрос как можно раньше Ваша помощь будет оценена ..

1 Ответ

4 голосов
/ 20 декабря 2011

Использование pdftohtml .

Может быть установлено с brew install pdftohtml.Это добавляет pdftohtml к вашему пути.

Итак, чтобы преобразовать pdf в xml, вы можете запустить pdftohtml -xml your_file.pdf your_file.xml

В python вы можете использовать следующие строки:

import os

cmd = 'pdftohtml -xml your_file.pdf your_file'
os.system(cmd)

! Обратите внимание, что pdftohtml автоматически добавляет расширение 'xml' для ввода второго файла

...