Question

Имеется s = u'Gaga\xe2\x80\x99s', но необходимо преобразовать в t = u'Gaga\u2019s'

Как этого лучше всего достичь?

unutbu · Answer 1 · 30 сентября 2011

s = u'Gaga\xe2\x80\x99s'
t = u'Gaga\u2019s'
x = s.encode('raw-unicode-escape').decode('utf-8')
assert x==t

print(x)

урожайность

Gaga’s

Mark Tolonen · Answer 2 · 30 сентября 2011

Где бы вы ни декодировали исходную строку, она, скорее всего, была расшифрована латинским-1 или близким родственником. Поскольку latin-1 - это первые 256 кодовых точек Unicode, это работает:

>>> s = u'Gaga\xe2\x80\x99s'
>>> s.encode('latin-1').decode('utf8')
u'Gaga\u2019s'

rocksportrocker · Answer 3 · 30 сентября 2011

import codecs

s = u"Gaga\xe2\x80\x99s"
s_as_str = codecs.charmap_encode(s)[0]
t = unicode(s_as_str, "utf-8")
print t

отпечатки

u'Gaga\u2019s'

Python Конвертировать строки Unicode-Hex utf-8 в строки Unicode

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python Конвертировать строки Unicode-Hex utf-8 в строки Unicode

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы