Неанглийские символы переводятся в десятичные - PullRequest
0 голосов
/ 15 сентября 2011

Пока я проверял RSS-канал, в браузере я вижу следующий текст:

3 装 配上 超短 迷你裙 迷你裙 暴露 暴露 不得 不得 专 专 大专打扮 的 随 性 打扮 ...

Но то же представление исходного кода преобразуется в десятичное, как показано ниже:

#30701&#35044&#12289&#36855&#20320&#35033&#12289&#21514&#24102&#35013&#12289&#20154&#23383&#25302&#38795......&#22823&#19

987&#23398&#29983&#30340&#31359&#30528&#25171&#25198&#21450&#28526&#27969&#21697&#21619&#65292&#19968&#30452&#37117&#26159&#26159&#22823&#23478&#35752&#35770&#30340&#2

8909&#38376&#35805&#39064&#12290&

Это связано с локализацией содержимого или файласохраняется в другой кодировке?Я вижу, что файл сохранен с использованием UTF-8.

Я пытаюсь проанализировать RSS-канал с помощью Python.Но после разбора я получаю только десятичные значения, а не фактические символы.

Ответы [ 4 ]

2 голосов
/ 15 сентября 2011

Дело не в том, что исходное представление преобразует его в десятичное, а в том, что браузер обрабатывает сущности и преобразует их в соответствующие символы, не входящие в ASCII.Возможно, это немного щедро с точки зрения преобразования сущностей, у которых нет завершающего символа ';'.

Сервер почти наверняка обслуживает то, что вы видите в исходном представлении.

1 голос
/ 15 сентября 2011

Разве они не хранятся в виде HTML-сущностей автора страницы?

http://tlt.its.psu.edu/suggestions/international/bylanguage/thaichart.html

1 голос
/ 15 сентября 2011

По какой-то причине инструмент, создавший фид, решил преобразовать все символы в их строковое представление кодовой точки Unicode.Странно, но ответить может только автор этого инструмента.

0 голосов
/ 22 сентября 2011

Вот как браузер справляется с этим.Напишите простую HTML-страницу, поместите туда эту десятичную дробь и проверьте, что вы получите.

Да, вы можете использовать символы UTF-8 в HTML, но затем вы должны установить кодировку страницы.Кодирование символов UTF-8 в десятичном формате, как, например, в вашем примере, просто безопаснее, поэтому многие страницы предпочитают это делать.Он указан в стандартах HTML, поэтому, если вы хотите анализировать HTML вручную, вы должны иметь с ним дело.

...