Как я могу предотвратить появление странных символов при извлечении ленты Atom из блога WordPress 3.0 - PullRequest
0 голосов
/ 29 сентября 2010

У меня есть атомная лента в блоге WordPress здесь: http://blogs.legalview.info/auto-accidents/feed/atom

Когда я загружаю текст файла и показываю его на моем сайте, я получаю странные символы, такие как акцентированный 'A' здесь:

Недавние исследования показывают, что число несчастных случаев, связанных с автомобильными авариями, снизилось с 2008 года почти на 10%. Причина этого

Я использую следующий код в моей C #-сетиприложение для загрузки канала:

        WebClient client = new WebClient();
        client.Headers.Add(@"Accept-Language: en-US,en          
                           Accept-Charset: utf-8");
        string xml_text = client.DownloadString(_atom_url);

И xml_text.Contains("Â") возвращает значение true, но если я загружаю канал в браузере, такого не существует.Я уверен, что это проблема набора символов, но я не могу понять, почему.Изучив client.ResponseHeaders, я могу видеть, что он на самом деле загружает текст в utf-8, а ответ на моем .Net-сайте тоже UTF-8, поэтому я не могу понять, почему появляется странность

1 Ответ

1 голос
/ 29 сентября 2010

Я получаю ...fatalitiesÂ, когда заставляю свой браузер интерпретировать канал как ISO-8859-1 вместо UTF-8 (что определенно является правильным набором символов для канала.)

ЯЯ уверен, что либо ваш WebClient каким-то образом по умолчанию использует ISO-8859-1, либо выходная кодировка на вашем сайте соответствует ISO-8859-1, что явно искажает ввод UTF-8.

ВозможноСначала проверьте выход вашего сайта.Если это определенно UTF-8, взгляните на WebClient.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...