как заменить или удалить кодировку UTF-8 смайликов в Python - PullRequest
0 голосов
/ 15 мая 2019

Вот моя проблема

Я уже пытаюсь удалить его с помощью этого кода, но он не работает

words = ' '.join(re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)"," ",words).split())
words2 = ' '.join(re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)"," ",words2).split())

Я пытаюсь удалить \xe2\x80\x9cIt\xe2\x80\x99s

b'\xe2\x80\x9cIt\xe2\x80\x99s просто мечта для нас, \xe2\x80\x9d говорит Агунг Прабово из The Old Man, Лучший бар в Азии в 2019 году, спонсируемый Pe\xe2\x80\xa6

, и я хочу получить

"Agung Prabowo of The Old Man The Best Bar in Asia 2019 sponsored by"
...