Python конвертировать docx в html используя мамонта: html, метка головы и тела отсутствует - PullRequest
0 голосов
/ 25 марта 2020

Я пытаюсь преобразовать простой файл docx в файл HTML, используя пакет mammoth . Но похоже, что сгенерированный html содержит только часть полного HTML файла: все теги HTML, head и body отсутствуют в сгенерированной строке html.

Интересно, есть параметры, чтобы HTML стал действительным HTML код.

1 Ответ

0 голосов
/ 25 марта 2020

Я прочитал do c и не нашел опции для генерации полного HTML. Так как сгенерированный HTML является просто укусом, легко сделать его полностью HTML -совместимым:

import mammoth

with open("test.docx", "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file)
    html = result.value  # The generated HTML
    messages = result.messages  # Any messages,

    full_html = (
        '<!DOCTYPE html><html><head><meta charset="utf-8"/></head><body>'
        + html
        + "</body></html>"
    )

    with open("test.html", "w", encoding="utf-8") as f:
        f.write(full_html)

В приведенном выше коде мы просто добавляем и добавляем необходимые открывающие и закрывающие теги сделать строку html допустимым HTML исходным кодом.

...