Есть несколько сообщений, касающихся вопросов кодирования и HtmlAgilityPack
, но эта проблема не решена:
Поскольку веб-сайт, который я пытаюсь проанализировать, содержит символы Unicode, такие как €
или ä
, ü
Я попытался установить кодировку Unicode:
public class WebpageDeserializer
{
public WebpageDeserializer() {}
/*
* Example address: https://www.dslr-forum.de/showthread.php?t=1930368
*/
public static void Deserialize(string address)
{
var web = new HtmlWeb();
web.OverrideEncoding = Encoding.Unicode;
var htmlDoc = web.Load(address);
//further decoding fails because unicode decoded characters are not proper html (looks more like chinese)
}
}
Но теперь
htmlDoc.DocumentNode.InnerHtml
выглядит так:
ℼ 佄 呃 偙 ⁅ 瑨 汭 倠...
Если я попытаюсь использовать UTF-8
или iso-8859-1
* * 1021.Символ * преобразуется в �
(а также ä
, ö
, ü
).Как я могу это исправить?