Современные документы Word (DOCX) основаны на OOXML , состоящем из двух частей:
- Open Packaging Conventions (OPC), основанном на Zip.Вы можете переименовать расширение файла DOCX в .zip и использовать обычные утилиты Zip, чтобы открыть его.
- WordprocessingML, основанный на XML.Вы можете использовать обычные инструменты XML и парсеры для чтения и записи.
Таким образом, ваш DOCX-файл в некотором смысле уже является XML.Что касается «изначально сгенерированного», то это вопрос происхождения данных, а не форматов данных.Кроме метаданных об авторстве, дате / времени создания и т. Д., Нет ничего, что можно использовать для обратного инжиниринга файла DOCX, который может вернуть вас к исходным данным, на основании которых он был получен.