Базовый XML в документе .docx может быть проверен с помощью opc-diag
, что-то вроде проекта-компаньона python-docx
.
opc browse FedRamp.docx document.xml
Инспекция показывает, что передний план в этом документе заключен в элемент <w:sdt>
. «sdt» обозначает тег структурированного документа. Я не знаю, что это такое, но, возможно, они связаны с контролем контента. В любом случае, их присутствие эффективно скрывает все, что они содержат от python-docx
. Подобное поведение возникает с неприемлемыми ревизионными метками. python-docx
просто не достаточно сложен, чтобы справиться со сложностями, которые представляют эти «продвинутые» контейнеры, присутствующие в некоторых документах .docx.
Если вы можете каким-то образом удалить эти контейнеры, восстановив их содержимое до «верхнего уровня», все должно работать. Если вы используете этот файл в качестве шаблона, то редактирование их с помощью Word или даже редактирование XML вручную, возможно, будет самым быстрым. Если они являются входными данными, которые постоянно поступают к вам таким образом, возможно, предварительная обработка XML части document.xml
является жизнеспособным подходом.