Преобразование PDF в ODT / DOC с использованием Apache OpenOffice - PullRequest
1 голос
/ 06 ноября 2019

Я использую IronPython + PyFPDF для создания отчетов в формате PDF с изображениями, таблицами и текстом. Ну, поскольку PDF никогда не предназначался как редактируемый / плавающий документ, мне интересно, есть ли способ преобразовать его в какой-либо редактируемый документ, такой как ODT / Doc, сохраняя форматирование документа в максимально возможной степени.

Я исследовалнесколько способов и возможных подходов

  • PDF -> HTML -> Word (Использование pdftohtmlEx и pandas для получения документа из html, но похоже, что pdftohtmlEx не сохраняет форматирование документа)
  • Использование MS Word или Apache Open Office (в зависимости от сервера, учитывая наличие авторов приложения) для преобразования, поскольку у них есть функциональные возможности сделать это из графического интерфейса, поэтому должен быть какой-то способ сделать это из командной строки, а затем использовать эту командустрока из подпроцесса python, чтобы сделать это программно

Я не хочу исследовать любые сторонние библиотеки / пакеты, единственная проблема / ограничение состоит в том, что IronPython не поддерживает пакеты, которые имеют большую дозу кода C, например docx-mailmerge, python-docx, numpy, pandas

SummiНесмотря на все это, я вижу, что лучший вариант - это использовать писатели Word или Apache Open Office для выполнения работы, но я не уверен, как добиться этого с помощью командной строки

Может кто-нибудь, пожалуйста, укажите мне правильное направление

...