Я собираю твиты из Twitter и сохраняю текстовые данные в CSV-файле (который сохраняется как байтовый литерал b). При просмотре данных у меня есть много символов Unicode, таких как (\xe2\x80\x9c
). Можно ли написать сценарий, который может пройти через CSV и декодировать все Unicode, или я должен декодировать его, когда я загружаю сообщения? Если можно пройти через CSV и декодировать Unicode, как мне это сделать?
Вот пример данных:
b'\xe2\x80\x9cSwitching Gears: Binance Phishing Scammers Pivot to EOS Airdrop Phishing Scam\xe2\x80\x9d by @satnam '
b'Go SMB! \xf0\x9f\x92\x95\xf0\x9f\x8d\xba'
b'@boogymaboi @SMB_DBN Trousers are too sick \xf0\x9f\x98\xa4'
EDIT:
Текстовые записи в файле csv выглядят, как показано выше, при просмотре самого файла csv, при распечатывании их он показывает, что они являются строками, и показывает то же, что и выше, но в «b '\ xe2 \ x80 \ x9cSwitching Gears: Binance Phishing Scammers Поворот к EOS ". При создании файла я добавил записи в существующий CSV и написал с использованием x.writerow (текст)
Я открываю свой файл, содержащий строки, а затем декодирую и записываю его в другой файл, используя приведенный ниже код.
with open('my.csv', 'wb') as file:
with open('sec_tweet_dataset.csv') as f:
for a in f:
a = a.decode()
data = a.rstrip()
file.write(data)
file.write('\n')
Я пробовал разные формы, но ни один из них не может правильно отобразить строку.