У меня есть файл CSV, похоже, UTF-16, выгруженный из SQL Server.Этот файл содержит правильно закодированные акценты (испанский), но некоторые строки кодируются по-разному.Например:
0xd83d0xde1b0xd83d0xde1b0xd83d0xde1b
Это странное кодирование для
\ud83d\ude1b\ud83d\ude1b\ud83d\ude1b
\ud83d\ude1b
- это суррогатные пары для смайликов
Мне нужно преобразовать все вхороший, аккуратный файл UTF-8.Я пробовал бесконечные комбинации bytearray()
, encode()
, decode()
и так далее.
Как я могу преобразовать этот файл смешанного UTF-16 и экранированного UTF-16 в соответствующие строки Python 3 и, наконец, сохранить их в новый файл UTF-8?