У меня есть CSV-файл со столбцом message
, который содержит текст (в основном на английском языке, но также с некоторыми специальными символами, такими как испанский или французский) и смайлики.
df = pd.read_csv('myfile.csv', encoding='utf-8')
дает мне эту ошибку: UnicodeDecodeError: 'utf-8' codec can't decode byte 0x97 in position 83: invalid start byte
df = pd.read_csv('myfile.csv', encoding='mac_roman')
читает файл нормально, но заменяет эмодзи подчеркиванием _________
. То же самое с windows-1252
и iso-8859-1
.
Я пробовал utf-16,32, cp1252 и т. Д. Ничего не работает.
Моя цель - сохранить смайлики в том виде, в каком они есть, а затем расшифровать их в слова (смайлик, большой палец и т. Д.) С помощью пакета Emoji Python.
Может быть, у кого-то была похожая проблема, и он мог бы предложить решение? Спасибо!