HTML в .doc конвертер в Python? - PullRequest
       35

HTML в .doc конвертер в Python?

9 голосов
/ 19 ноября 2010

Я использую pisa, которая является библиотекой преобразования HTML в PDF для Python.

Существует ли то же самое для документа Word: библиотека преобразования HTML в .doc для Python?

Ответы [ 3 ]

9 голосов
/ 19 ноября 2010

Вы можете использовать win32com из расширений Python для Windows pywin32 , чтобы MS Word конвертировал его для вас.Простой пример:

import win32com.client

word = win32com.client.Dispatch('Word.Application')

doc = word.Documents.Add('example.html')
doc.SaveAs('example.doc', FileFormat=0)
doc.Close()

word.Quit()
3 голосов
/ 19 ноября 2010

Хотя я не знаю о прямом модуле, который может позволить вам преобразовать это, однако:

  1. Вы можете сначала преобразовать HTML в обычный текст , используя модуль html2text .
  2. После этого вы можете использовать этот модуль python-docx для преобразования текста в файл doc или docx .
2 голосов
/ 25 мая 2012

В случае, если кто-то еще приземлится здесь, пытаясь преобразовать наоборот, приведенный выше код работает, но вам нужно изменить значение FileFormat.

http://msdn.microsoft.com/en-us/library/ff839952.aspx

Пример: отфильтрованный html равен 10 вместо 0.

...