Я удалил твиты из Твиттера, на которых я делаю анализ текста.
Я использую это: corpus <- tm_map (corpus, removePunctuation) </p>
Данные показывают: [1] rt shreya2607 sendusbackhome myogioffice narendramodi ashokgehlot51 ombirlakota cov19 сэр из-за ученика в кота … [2] covid19 stayathome нос знает с помощью banxcartoons httpstcowegjrzadyx auspol коронавирус stayathome thedrum
[3] 5 полезных шагов covid19 принятие решения в неопределенные времена httpstcobjskydzydy через mckinsey
В [1] есть ... Это выиграл удалить. Поскольку эти три точки есть почти в каждом твите, они не отображаются в гистограммах, слово облака и т. Д. c.
Ниже приведена моя полная программа:
tweets_df <- read.csv('covid.csv')
str(tweets_df)
library(tm)
corpus <- iconv(tweets_df$text, to = "UTF-8")
corpus <- Corpus(VectorSource(corpus))
inspect(corpus[1:3])
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords('english'))
corpus <- tm_map(corpus, removeWords, c('covid', 'rt'))
Textprocessing <- function(x)
{gsub("http[[:alnum:]]*",'', x)
gsub('http\\S+\\s*', '', x) ## Remove URLs
gsub('\\b+RT', '', x) ## Remove RT
gsub('#\\S+', '', x) ## Remove Hashtags
gsub('@\\S+', '', x) ## Remove Mentions
gsub('[[:cntrl:]]', '', x) ## Remove Controls and special characters
gsub("\\d", '', x) ## Remove Controls and special characters
gsub('[[:punct:]]', '', x) ## Remove Punctuations
gsub("^[[:space:]]*","",x) ## Remove leading whitespaces
gsub("[[:space:]]*$","",x) ## Remove trailing whitespaces
gsub(' +',' ',x) ## Remove extra whitespaces
}
corpus <- tm_map(corpus, Textprocessing)
inspect(corpus[1:3])