Может быть, вы можете вручную декодировать эти символы. Я использовал это раньше
Dictionary<string, char> HTMLSymbolMap = new Dictionary<string, char>()
{
{"–",'–'},
{"—",'—'},
{"‘",'‘'},
{"’",'’'},
{"‚",'‚'},
{"“",'“'},
{"”",'”'},
{"•",'•'},
{"·",'·'},
{"„",'„'},
{"£",'£'},
{"§",'§'},
};
public string CleanJunk(string docText)
{
foreach (var kv in HTMLSymbolMap)
{
docText = docText.Replace(kv.value.tostring(), kv.key);
}
return docText;
}
См. Эту таблицу символов HTML для получения дополнительной информации