Основная идея формата MS Word DOC - это документ OLE Compund Document, который, как уже писал Кибби, представляет собой дамп памяти. Это очень сложный и запутанный способ хранения документов, но если вы когда-нибудь действительно покопались в приложении Word, вы узнаете, насколько безумно много функций у него есть, и если вы используете его в бизнес-среде, у вас будет хороший ощущение того, как он интегрируется с другими программами из серии Office.
В общем, документы OLE Compund представляют собой очень расширяемые структуры, которые позволяют вам объединять все виды данных в один файл и даже в некоторой степени обрабатывать данные, для которых не установлено приложение. Например, если вы вставляете объект уравнения (из редактора уравнений MS) в документ, он сохраняется как подобъект, подобный файлу внутри файла, но этот объект не просто содержит данные, необходимые для редактора уравнений для его редактирования и рендеринга он также имеет общее растровое (или, может быть, метафайл) представление, сохраненное, чтобы его можно было отображать, хотя и не редактировать, на компьютере без установленного редактора формул.
Это было почему , для как вам придется читать спецификации, с которыми уже связались другие люди;)
Если вы хотите простой способ работы с файлами, убедитесь, что ваше программное обеспечение работает на компьютере под управлением Windows с установленным Word, а затем используйте COM / OLE Automation, чтобы открывать документы и манипулировать ими. Тогда вам не придется беспокоиться о формате файла.