Конвертировать DOC в DOCX с Python без промежуточного записанного выходного файла на диск - PullRequest
0 голосов
/ 01 июля 2019

Проблема:

для преобразования input_file.doc в output_file.docx с Python-скриптом

Мне нужно сделать это с помощью скрипта Python, и поэтому я должен использовать только программное обеспечение, которое понимает команды. Как показало мое исследование, единственный способ - использовать саму Word (вручную или даже автоматически), или специальную утилиту MS под названием wordconv.exe, которая может выполнять эту задачу через cmd и входит в состав любого офиса MS с 2007 года.

Любое другое программное обеспечение не работает для меня, потому что мои файлы содержат редко используемое форматирование текста.

Итак, единственный путь - это wordconv.exe, который можно запустить с такой командой:

wordconv.exe -oice -nme <input file> <output file>

Камнем преткновения для меня является то, что wordconv.exe вывод записывается в файл на жесткий диск. Итак, мне нужно обработать весь процесс:

  1. Конвертировать файл
  2. Чтение с диска
  3. Удалить файл после прочтения

Все это делает мою работу намного медленнее из-за множества ненужных операций.

Я хотел бы узнать, как отловить output_file.docx как STDOUT или другим способом (может быть, как вывод в консоли)?

...