Чтобы преобразовать Docx в HTML, используйте следующий код:
Ниже кода не идентифицируйте таблицы и изображения из docx. Преобразуйте docx в html, но не сохраняйте таблицы и изображения.
import mammoth
Docx = open("docx_file.docx", 'rb')
html = open('html_filename.html', 'wb')
document = mammoth.convert_to_html(Docx )
html.write(document.value.encode('utf8'))
Docx.close()
html.close()
Чтобы сохранить форматирование и изображения, используйте пакет win32 для преобразования docx в html.
import win32com.client
doc = win32com.client.GetObject ("docx_InputFile.docx")
doc.SaveAs (FileName="Html_FileName.html", FileFormat=8)
doc.Close ()