Как сохранить смайлики при чтении CSV-файла в панд - PullRequest
0 голосов
/ 21 января 2019

У меня есть CSV-файл со столбцом message, который содержит текст (в основном на английском языке, но также с некоторыми специальными символами, такими как испанский или французский) и смайлики.

df = pd.read_csv('myfile.csv', encoding='utf-8') дает мне эту ошибку: UnicodeDecodeError: 'utf-8' codec can't decode byte 0x97 in position 83: invalid start byte

df = pd.read_csv('myfile.csv', encoding='mac_roman') читает файл нормально, но заменяет эмодзи подчеркиванием _________. То же самое с windows-1252 и iso-8859-1.

Я пробовал utf-16,32, cp1252 и т. Д. Ничего не работает.

Моя цель - сохранить смайлики в том виде, в каком они есть, а затем расшифровать их в слова (смайлик, большой палец и т. Д.) С помощью пакета Emoji Python.

Может быть, у кого-то была похожая проблема, и он мог бы предложить решение? Спасибо!

...