Я пытаюсь исправить файл CSV , который был экспортирован с неверной кодировкой. Первые три строки выглядят так:
"\/eÉ\u0099(r)\/","\/É\u009CË\u0090(r)\/","IPA","Notes"
"air","err","Ë\u0088É\u009CË\u0090(r)"
"Baird","bird","Ë\u0088bÉ\u009CË\u0090(r)d"
Это лучший результат, который я получил до сих пор:
>>> print(csv_bytes.decode('utf-8').encode('latin1').decode('unicode-escape').encode('latin1').decode('utf8'))
"\/eə(r)\/","\/ɜː(r)\/","IPA","Notes"
"air","err","ˈɜː(r)"
"Baird","bird","ˈbɜː(r)d"
Однако некоторые символы, такие как \/
, все равно продолжают экранировать с начала. Я также попытался использовать ftfy , но безуспешно.