Примечание: образец документа, который я использовал для теста, может быть найден: http://ftp.3gpp.org//Specs/archive/38_series/38.413/38413-100.zip
Проблема
Я пытаюсь конвертировать MS Word 97-2003 документ (.do c) на веб-страницу UTF-8 со следующим кодом:
var wordApp = new Word.Application();
var doc = wordApp.Documents.Open("input.doc");
Console.WriteLine(doc.TextEncoding); // msoEncodingWestern
doc.SaveEncoding = MsoEncoding.msoEncodingUTF8;
doc.WebOptions.Encoding = MsoEncoding.msoEncodingUTF8;
doc.SaveAs2("output.htm", WdSaveFormat.wdFormatFilteredHTML, Encoding: MsoEncoding.msoEncodingUTF8);
doc.Close();
wordApp.Quit();
Проблема в том, что документ содержит определенный символ, который неправильно отображается на веб-странице:
В документе
На веб-странице
(Информация) Ручной способ
Для информации, если я выполню вышеуказанное вручную, как показано ниже, символ стрелки будет правильно отображаться на веб-странице.