Сторнирование неправильной кодировки CSV - PullRequest
1 голос
/ 27 марта 2020

Я пытаюсь исправить файл CSV , который был экспортирован с неверной кодировкой. Первые три строки выглядят так:

"\/eÉ\u0099(r)\/","\/É\u009CË\u0090(r)\/","IPA","Notes"
"air","err","Ë\u0088É\u009CË\u0090(r)"
"Baird","bird","Ë\u0088bÉ\u009CË\u0090(r)d"

Это лучший результат, который я получил до сих пор:

>>> print(csv_bytes.decode('utf-8').encode('latin1').decode('unicode-escape').encode('latin1').decode('utf8'))
"\/eə(r)\/","\/ɜː(r)\/","IPA","Notes"
"air","err","ˈɜː(r)"
"Baird","bird","ˈbɜː(r)d"

Однако некоторые символы, такие как \/, все равно продолжают экранировать с начала. Я также попытался использовать ftfy , но безуспешно.

...