У меня проблема с чисткой твитов. У меня есть процесс, который сохраняет твиты в CSV, а затем я делаю pandas dataframe данных.
x - это твит с моего фрейма данных:
'b\'RT @LBC: James O\\\'Brien on Geoffrey Cox\\\'s awaited legal advice: "We are waiting for a single unelected expert to tell us whether or not fore\\xe2\\x80\\xa6\''
Больше твитов:
"b'RT @suzannelynch1: Meanwhile in #Washington... Almost two dozen members of #Congress write to #TheresaMay on eve of #StPatricksDay visit wa\\xe2\\x80\\xa6'
b"RT @KMTV_Kent: #KentTonight Poll:\\nKent\'s MPs will be having their say on Theresa May\'s #Brexit deal today. @SirRogerGaleMP said he\'ll back\\xe2\\x80\\xa6"
Результат должен выглядеть так:
James O'Brien on Geoffrey Cox's awaited legal advice: "We are waiting for a single unelected expert to tell us whether or not for'
(Храните хэштеги, просто удалите без символов utf8)
Я бы хотел убрать этот твит. Я пытался использовать регулярные выражения с re.sub (my_regex), re.compile ...
Различает регулярное выражение, которое я пробовал: ([\ U00010000- \ U0010ffff], r '@ [A-Za-z0-9] +', https?: // [A-Za-z0-9./] +)
Я тоже так пытался:
x.encode('ascii','ignore').decode('utf-8')
Это не работает из-за двойной обратной косой черты, и работает, когда я делаю:
'to tell us whether or not fore\xe2\x80\xa6'.encode('ascii','ignore').decode('utf-8')
Возвращает меня:
'to tell us whether or not fore'
Кто-нибудь знает, как его почистить?
Большое спасибо !