... в твитах не удаляется удалением пунктуации три точки - PullRequest
0 голосов
/ 14 апреля 2020

Я удалил твиты из Твиттера, на которых я делаю анализ текста.

Я использую это: corpus <- tm_map (corpus, removePunctuation) </p>

Данные показывают: [1] rt shreya2607 sendusbackhome myogioffice narendramodi ashokgehlot51 ombirlakota cov19 сэр из-за ученика в кота … [2] covid19 stayathome нос знает с помощью banxcartoons httpstcowegjrzadyx auspol коронавирус stayathome thedrum
[3] 5 полезных шагов covid19 принятие решения в неопределенные времена httpstcobjskydzydy через mckinsey

В [1] есть ... Это выиграл удалить. Поскольку эти три точки есть почти в каждом твите, они не отображаются в гистограммах, слово облака и т. Д. c.

Ниже приведена моя полная программа:

tweets_df <- read.csv('covid.csv')
str(tweets_df)
library(tm)
corpus <- iconv(tweets_df$text, to = "UTF-8")
corpus <- Corpus(VectorSource(corpus))
inspect(corpus[1:3])
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removeWords, stopwords('english'))
corpus <- tm_map(corpus, removeWords, c('covid', 'rt'))
Textprocessing <- function(x)
  {gsub("http[[:alnum:]]*",'', x)
  gsub('http\\S+\\s*', '', x) ## Remove URLs
  gsub('\\b+RT', '', x) ## Remove RT
  gsub('#\\S+', '', x) ## Remove Hashtags
  gsub('@\\S+', '', x) ## Remove Mentions
  gsub('[[:cntrl:]]', '', x) ## Remove Controls and special characters
  gsub("\\d", '', x) ## Remove Controls and special characters
  gsub('[[:punct:]]', '', x) ## Remove Punctuations
  gsub("^[[:space:]]*","",x) ## Remove leading whitespaces
  gsub("[[:space:]]*$","",x) ## Remove trailing whitespaces
  gsub(' +',' ',x) ## Remove extra whitespaces
}
corpus <- tm_map(corpus, Textprocessing)
inspect(corpus[1:3])
...