Python, Unicode и парсинг с lxml и как работать с 35 \ xa0new - PullRequest
0 голосов
/ 08 октября 2011

Я извлекаю поле на веб-странице и тег HTML текстовое содержимое выглядит следующим образом ...

35 new

В python извлеченные данные выглядят так ...

35\xa0new

Как мне работать с юникодом в python для преобразования в обычную строку?
"35 новых"

какую библиотеку мне использовать?

Спасибо

Ответы [ 2 ]

3 голосов
/ 08 октября 2011

Избегайте работы с обычными строками, когда это возможно; unicode s, как правило, более полезны для текста, и существует много известных решений для манипулирования ими и работы с ними.

0 голосов
/ 08 октября 2011

Вы получаете Unicode-строки из парсера.Вы можете заменить некоторые символы, если вы предпочитаете других.Например, ваш \xa0 является неразрывным пробелом, и вы можете заменить его обычным пробелом:

text = text.replace(u"\xa0", u" ")

Может быть много таких символов, которые вы хотите изменить, поэтому это может бытьдолгий процесс поиска всех тех, которые встречаются в ваших данных.

...