Обратный инжиниринг Word DOCX, сгенерированного XML, обратно в XML - PullRequest
0 голосов
/ 04 марта 2019

У меня есть документ Word, который был изначально создан с использованием XML.Теперь я хочу перепроектировать его обратно в XML и получить оригинальный код XML.Какой лучший способ сделать это?

1 Ответ

0 голосов
/ 04 марта 2019

Современные документы Word (DOCX) основаны на OOXML , состоящем из двух частей:

  • Open Packaging Conventions (OPC), основанном на Zip.Вы можете переименовать расширение файла DOCX в .zip и использовать обычные утилиты Zip, чтобы открыть его.
  • WordprocessingML, основанный на XML.Вы можете использовать обычные инструменты XML и парсеры для чтения и записи.

Таким образом, ваш DOCX-файл в некотором смысле уже является XML.Что касается «изначально сгенерированного», то это вопрос происхождения данных, а не форматов данных.Кроме метаданных об авторстве, дате / времени создания и т. Д., Нет ничего, что можно использовать для обратного инжиниринга файла DOCX, который может вернуть вас к исходным данным, на основании которых он был получен.

...