Коды в зачищенном тексте вместо символов юникода - PullRequest
0 голосов
/ 18 июля 2011

Я использую Beautiful Soup для извлечения некоторых текстов. Программа работает в командной строке, и когда я ее запускаю, она отображает такие коды, как í é и т. Д.

Как я могу исправить это поведение?

1 Ответ

2 голосов
/ 18 июля 2011

Эти коды называются символьными объектами HTML / XML.

Я раньше не использовал Beautiful Soup, но, согласно документации, похоже, что есть опция для преобразования символьных объектов в символы Юникода: http://www.crummy.com/software/BeautifulSoup/documentation.html#Entity%20Conversion

...