Почему файл Word, дублированный с python -docx, отличается XML от оригинала - PullRequest
0 голосов
/ 23 марта 2020

Я генерирую файлы .docx из документов Word, которые изменили шрифты, но поддерживают тот же формат, стиль и информационное содержание. Все было сделано с помощью python -docx API.

Все еще существуют обходные пути, не входящие в сферу действия API (например, дублирование нумерации c маркеров из источника и вставка нестандартных строк в заголовки / колонтитулы). Я подхожу к ним через l xml.

. XML исходного файла и сгенерированного файла, хотя и похожи, не идентичны, несмотря на отсутствие тегов <w:numPr>. Это почему? Выходные файлы .docx выглядят как положено.

Это затрудняет работу с исправлениями низкого уровня l xml.

1 Ответ

1 голос
/ 23 марта 2020

Ваше предположение, что существует только один способ представления документа в таком сложном формате, как OO XML, особенно сгенерированный из независимо написанных баз кода, очень неверно.

Так что ответ на ваш вопрос заключается в том, что несколько представлений OO XML могут привести к одинаковому виду в Microsoft Word (или любом другом приложении DOCX); небезопасно предполагать, что любая заданная библиотека напишет любой заданный OO XML точно так же, как и любое данное приложение DOCX.

...