Удалить смайлики и URL в R - PullRequest
0 голосов
/ 28 января 2019

Я извлек твиты из Твиттера, связанные с #TrumpCaved !!В своих твитах я хотел удалить смайлики, URL-адреса и всех других специальных символов из всех твитов.Один из твитов выглядит следующим образом:

@ mitchellvii @AnnCoulter Привет всем вам, люди #MAGA, как вам понравилось смотреть @realDonaldTrump пещеру сегодня?… HTTP-контент [Если я использую http-ссылку, я не смогу ее опубликовать]

Я попытался использовать следующий код, но он не работает для меня.

В моем сценарииЯ попытался удалить URL-адреса успешно, и после того, как я использую следующий код для удаления смайликов, он удаляется, но теперь URL-адреса добавляются.Может ли кто-нибудь помочь мне удалить все нежелательные символы из текста, особенно URL-адреса и смайлики?

Сначала я попытался удалить http с помощью функции gsub

Corpus = gsub("https.*","",  tweets_text$Tweets)
O/p : @mitchellvii @AnnCoulter Hey all you #MAGA people, how did you like watching @realDonaldTrump cave today? <U+0001F602><U+0001F923><U+0001F602><U+0001F923>… 

Затем я попытался удалитьсмайлики с использованием функции gsub

Corpus = gsub("[^[:alnum:]///' ]","", tweets_text$Tweets)
O/P : mitchellvii AnnCoulter Hey all you MAGA people how did you like watching realDonaldTrump cave today  https//tco/vmUCJvTnEO
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...