Question

Я извлекаю поле на веб-странице и тег HTML текстовое содержимое выглядит следующим образом ...

35&nbsp;new

В python извлеченные данные выглядят так ...

35\xa0new

Как мне работать с юникодом в python для преобразования в обычную строку?
"35 новых"

какую библиотеку мне использовать?

Спасибо

Ignacio Vazquez-Abrams · Answer 1 · 08 октября 2011

Избегайте работы с обычными строками, когда это возможно; unicode s, как правило, более полезны для текста, и существует много известных решений для манипулирования ими и работы с ними.

Ned Batchelder · Answer 2 · 08 октября 2011

Вы получаете Unicode-строки из парсера.Вы можете заменить некоторые символы, если вы предпочитаете других.Например, ваш \xa0 является неразрывным пробелом, и вы можете заменить его обычным пробелом:

text = text.replace(u"\xa0", u" ")

Может быть много таких символов, которые вы хотите изменить, поэтому это может бытьдолгий процесс поиска всех тех, которые встречаются в ваших данных.

Python, Unicode и парсинг с lxml и как работать с 35 \ xa0new

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python, Unicode и парсинг с lxml и как работать с 35 \ xa0new

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы