У меня есть файл CSV, который состоит из нескольких твитов, загруженных через API. Твиты состоят из нескольких символов Юникода, и у меня довольно хорошая идея, как их декодировать.
Я поместил файл CSV в DataFrame,
df = pd.read_csv('sample.csv', header=None)
columns = ['time', 'tweet']
df.columns = columns
один из твитов -
b'RT : This little girl dressed as her father for Halloween, a employee \xf0\x9f\x98\x82\xf0\x9f\x98\x82\xf0\x9f\x91\x8c (via )'
Но когда я получаю доступ к этому твиту через команду -
ДФ [ 'чирикать'] [0]
вывод возвращается в следующем формате -
"b'RT : This little girl dressed as her father for Halloween, a employee \\xf0\\x9f\\x98\\x82\\xf0\\x9f\\x98\\x82\\xf0\\x9f\\x91\\x8c (via ) '"
Я не могу понять, почему этот дополнительный обратный слеш добавляется в твит. В результате этот контент не декодируется. Ниже приведены несколько строк из DataFrame.
time tweet
0 2018-11-02 05:55:46 b'RT : This little girl dressed as her father for Halloween, a employee \xf0\x9f\x98\x82\xf0\x9f\x98\x82\xf0\x9f\x91\x8c (via )'
1 2018-11-02 05:46:41 b'RT : This little girl dressed as her father for Halloween, a employee \xf0\x9f\x98\x82\xf0\x9f\x98\x82\xf0\x9f\x91\x8c (via )'
2 2018-11-02 03:44:35 b'Like, you could use a line map that just shows the whole thing instead of showing a truncated map that\xe2\x80\x99s confusing.\xe2\x80\xa6 (via )
3 2018-11-02 03:37:03 b' service is a joke. No service northbound No service northbound from Navy Yard after a playoff game at 11:30pm. And they\xe2\x80\xa6'
Скриншот файла "sample.csv".
Как я уже упоминал ранее, любой из этих твитов при прямом доступе будет иметь дополнительную обратную косую черту, которая будет добавлена в вывод.
Может кто-нибудь объяснить, почему это происходит и как этого избежать?
спасибо