Бинарный формат Word является собственностью Microsoft. Спецификация для чтения двоичного формата является сложной, и вам понадобится много времени, чтобы узнать о структуре документа и внутренней структуре битов и байтов. Я действительно не думаю, что вы спасете себя в любое время, если будете идти по этому пути, поэтому подумайте о следующем:
- Использовать Open XML
- Автоматизация Word
- Использовать стороннюю библиотеку, такую как Aspose
- Используйте RTF, а не Док. Затем вы можете найти конкретный тег RTF с вашим текстом и заменить его другим набором текстового блока RTF. Это, вероятно, самое простое из того, что вы хотите сделать, если RTF является приемлемым форматом.
Личный опыт, автоматизация Word не так плоха, как кажется. Он действительно не подходит для среды с большим объемом сервера, но для меньшей нагрузки он, конечно, хорошо работает, если вы хорошо пишете свой код для управления объектом приложения и обработки исключений.
РЕДАКТИРОВАНИЕ: Исправлено в отношении моего первоначального комментария NDA. Это был тот случай, когда я работал над этим в 2005/6 году и не понимал, что Microsoft решила опубликовать это в последний год.