Акцентированные буквы и кавычки во внутреннем тексте HTML - PullRequest
0 голосов
/ 20 июня 2019

Я беру текст со страницы html, но когда я иду печатать на экране буквы и символы с акцентом, подобные этим: << >> или this: «», представлены знаком вопроса.

Примерcode:

static void Main(string[] args)
{
    var html = @"<body>
                    <p>This is the text with «quotation marks» and accented word wè</p>
                 </body>";

    var htmlDoc = new HtmlDocument();
    htmlDoc.LoadHtml(html);

    var htmlNodes = htmlDoc.DocumentNode.SelectSingleNode("//body");

    Console.WriteLine(Regex.Replace(WebUtility.HtmlDecode(htmlNodes.InnerText), @"\r\n?|\n|[ ]{2,}", ""));
    Console.ReadLine();

}

Я уже использую WebUtility.HtmlDecode (string) для декодирования строки и использовал HtmlAgilityPack для управления Html

В приведенном выше примере кода верная строка вернас реальными символами:

- это текст с «кавычками» и акцентированным словом wè

Но в моем случае с использованием кода на html-странице (как показано выше) с ударениембуквы и символы, такие как кавычки, печатают их со знаком вопроса следующим образом:

- это текст с кавычками?и акцентированное слово w?

Как сохранить настоящие буквы, когда они показаны со знаком вопроса?

Заранее спасибо.

1 Ответ

0 голосов
/ 20 июня 2019

См. https://www.whatsmyip.org/html-characters/ для списка кодов для специальных символов. Например, è должно быть закодировано как &#232;

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...