Как я могу декодировать эту строку в Python? - PullRequest
0 голосов
/ 04 декабря 2018

Я загрузил набор сообщений Facebook, и он был отформатирован следующим образом:

f\u00c3\u00b8rste student

Предполагается, что он равен første student, но я не могу правильно его декодировать.

Я пытался:

str = 'f\u00c3\u00b8rste student'
print(str)
# 'første student'

str = 'f\u00c3\u00b8rste student'
print(str.encode('utf-8')) 
# b'f\xc3\x83\xc2\xb8rste student'

Но это не сработало.

1 Ответ

0 голосов
/ 04 декабря 2018

Чтобы отменить любую имевшую место кодировку, сначала необходимо преобразовать символы в байты с теми же порядковыми номерами, кодируя в ISO-8859-1 (Latin-1), а затем после этого декодировать как UTF-8:

>>> 'f\u00c3\u00b8rste student'.encode('iso-8859-1').decode('utf-8')
'første student'
...