В документах Microsoft Word свойства каждого символа хранятся в файловой структуре, какая файловая структура используется для этой цели? - PullRequest
0 голосов
/ 25 февраля 2011

В документах Microsoft Word свойства каждого символа хранятся в файловой структуре, какая файловая структура используется для этой цели?

1 Ответ

1 голос
/ 25 февраля 2011

Существует несколько форматов для документов Microsoft Word, которые обычно встречаются в дикой природе.

Первый - это старый стандартный формат .doc, используемый годами с оригинальной версииСлово.Он был стандартизирован для версий от 97 до 2003 , а спецификация формата файла доступна здесь на MSDN.
Если вас не очень интересуют технические детали, Статья в Википедии содержит хороший обзор:

В конце 1990-х и начале 2000-х формат документов Word по умолчанию (.DOC) стал де-факто стандартом форматов файлов документов для пользователей Microsoft Office.,Хотя этот термин обычно называют просто «Формат документа Word», этот термин относится в основном к диапазону форматов, используемых по умолчанию в версии Word 97-2003.

Файлы документов Word с использованием формата двоичных файлов Word 97-2003реализовать структурированное хранилище OLE (связывание и внедрение объектов) для управления структурой их формата файлов.OLE ведет себя как обычная файловая система жесткого диска и состоит из нескольких ключевых компонентов.Каждый документ Word состоит из так называемых «больших блоков», которые почти всегда (но не обязательно) 512-байтовыми кусками;следовательно, размер файла документа Word в большинстве случаев будет кратным 512.

«Хранилища» являются аналогами каталога на диске и указывают на другие хранилища или «потоки», которые похожи на файлы вдиск.Текст в документе Word всегда содержится в потоке «WordDocument».Первый большой блок в документе Word, известный как блок «заголовка», предоставляет важную информацию о расположении основных структур данных в документе.«Хранилища свойств» предоставляют метаданные о хранилищах и потоках в файле документа, например, где он начинается, его имя и т. Д.«Блок информации о файле» содержит информацию о том, где текст в документе Word начинается, заканчивается, какая версия Word создала документ и другие атрибуты.

Word 2003 изменилигра, представляющая новый формат файлов на основе XML.Этот новый формат файла стал стандартным для этой версии Word, хотя он продолжал поддерживать старый формат .doc по причинам обратной совместимости.Этот формат описан в этой статье Википедии .

Наконец, Office 2007 представил форматы файлов Office Open XML, включая формат .docx для Word.Об этом тоже есть статья Википедии .Или, если вы предпочитаете технические подробности, обратитесь к этой справочной статье по MSDN: Пошаговое руководство. Формат Word 2007 XML

...