У меня есть документ в формате pdf, и я изменил файл на формат docx, который содержит верхние и нижние колонтитулы.При преобразовании файла docx в формат html с помощью пакета python pydocx я обнаружил, что заголовки исчезли.Остался только основной текст.
html = PyDocX.to_html('3975-4174.docx')
На самом деле мне нужны заголовки, чтобы я мог преобразовывать необработанные данные в структурированные данные с помощью регулярных выражений.Так как же сохранить заголовки на той же странице, где был файл?
- преобразовать pdf в слово через сторонний сервис
- преобразовать docx в html через pydocx