Я пытался предварительно обработать текст твита. Текст был в CSV-файле, который был очищен tweepy. Я использую Jupyter Notebook и предположим, что он хранится в переменной 'p', а текст выглядит примерно так, когда я просто выводю его, используя вывод ячейки:
"b" @ sarahbea34343 \\ xf0 \\ x9f \\ x98 \\ x94 Я \\ xe2 \\ x80 \\ x99m не слишком оптимистично c тбч, но эй ... https://twitter.com/icxdsfdf '"
Вместо этого, если я сделаю print (p) в Jupyter, то получится:
"b '@ sarahbea34343 \ xf0 \ x9f \ x98 \ x94 I \ xe2 \ x80 \ x99m не будет в чрезмерно оптимистичном c тбч, но эй ... https://twitter.com/icxdsfdf '"
Я проверил inte rnet, и казалось, что это в байтовом классе utf Кодировка -8. Поэтому я попытался декодировать, используя ".decode ('utf-8')", и он выдал ошибку. Проблема, которую я обнаружил, заключалась в том, что, поскольку она сохранялась в CSV-файле, кодировка utf-8 сохранялась как строка, и, следовательно, весь этот твит был строкой. Это означает, что даже обратная коса sh кодируется в виде строки. Кажется, я не понимаю, как мне преобразовать его так, чтобы я мог удалить эти смайлики и utf-кодировку другого персонажа?
Я пробовал несколько вещей, которые снова приводили к одной и той же строке, например:
p.encode ('ascii', 'ignore'). Decode ('ascii')
или p.encode ('latin-1'). Decode ('utf-8 ') .encode (' ascii ',' ignore ')