Проблемы с чисткой твита (смайлики, смайлики ...) - PullRequest
1 голос
/ 19 марта 2019

У меня проблема с чисткой твитов. У меня есть процесс, который сохраняет твиты в CSV, а затем я делаю pandas dataframe данных.

x - это твит с моего фрейма данных:

'b\'RT @LBC: James O\\\'Brien on Geoffrey Cox\\\'s awaited legal advice: "We are waiting for a single unelected expert to tell us whether or not fore\\xe2\\x80\\xa6\''

Больше твитов: "b'RT @suzannelynch1: Meanwhile in #Washington... Almost two dozen members of #Congress write to #TheresaMay on eve of #StPatricksDay visit wa\\xe2\\x80\\xa6'

b"RT @KMTV_Kent: #KentTonight Poll:\\nKent\'s MPs will be having their say on Theresa May\'s #Brexit deal today. @SirRogerGaleMP said he\'ll back\\xe2\\x80\\xa6"

Результат должен выглядеть так: James O'Brien on Geoffrey Cox's awaited legal advice: "We are waiting for a single unelected expert to tell us whether or not for' (Храните хэштеги, просто удалите без символов utf8)

Я бы хотел убрать этот твит. Я пытался использовать регулярные выражения с re.sub (my_regex), re.compile ...

Различает регулярное выражение, которое я пробовал: ([\ U00010000- \ U0010ffff], r '@ [A-Za-z0-9] +', https?: // [A-Za-z0-9./] +)

Я тоже так пытался:

x.encode('ascii','ignore').decode('utf-8')  

Это не работает из-за двойной обратной косой черты, и работает, когда я делаю:

'to tell us whether or not fore\xe2\x80\xa6'.encode('ascii','ignore').decode('utf-8')

Возвращает меня:

'to tell us whether or not fore'

Кто-нибудь знает, как его почистить? Большое спасибо !

1 Ответ

1 голос
/ 19 марта 2019

посмотрим, поможет ли это

a = 'b\'RT @LBC: James O\\\'Brien on Geoffrey Cox\\\'s awaited legal advice:     "We are waiting for a single unelected expert to tell us whether or not fore\\xe2\\x80\\xa6\''

chars = re.findall("""[\s"'#]+\w+""",a)

''.join([c for c in chars if c])

выход

James O'Brien on Geoffrey Cox's awaited legal advice: "We are waiting for a single unelected expert to tell us whether or not for'
...