Как уже упоминалось, было бы лучше экспортировать содержимое Word в формат для синтаксического анализа (подойдет либо RTF, либо XML).
Возможно, существует особая причина использования копирования и вставки для добавления материала в вашу CMS, но с копированием и вставкой вы, вероятно, всегда будете иметь какую-то визуальную проверку и исправление, если вы не создадите инструмент, который отслеживает в буфер обмена.
При копировании и вставке из (последней версии) Word буфер обмена имеет несколько различных форматов, которые можно использовать, один из форматов основан на XML.
Можно было бы создать что-то, что очистит Word XML в буфере обмена и «установит» текстовую версию (которую вы, вероятно, вставляете в CMS) в очищенный формат.
Вы можете использовать Word.interop, который поставляется с офисными и стандартными функциями буфера обмена C #, чтобы создать это. Инструмент может работать поверх (в фоновом режиме) Word при добавлении контента в CMS.