Как изменить заголовок в основной текст в ms_word, используя pydoc? - PullRequest
0 голосов
/ 05 мая 2019

У меня есть документ в формате pdf, и я изменил файл на формат docx, который содержит верхние и нижние колонтитулы.При преобразовании файла docx в формат html с помощью пакета python pydocx я обнаружил, что заголовки исчезли.Остался только основной текст.

html = PyDocX.to_html('3975-4174.docx')

enter image description here

На самом деле мне нужны заголовки, чтобы я мог преобразовывать необработанные данные в структурированные данные с помощью регулярных выражений.Так как же сохранить заголовки на той же странице, где был файл?

  1. преобразовать pdf в слово через сторонний сервис
  2. преобразовать docx в html через pydocx
...