Я работаю над неструктурированным заданием по сбору данных для класса, и у меня возникают проблемы, когда я манипулирую корпусом. Когда я закончу с удалением всех ненужных слов и знаков препинания, у меня не останется ничего, чтобы создать визуальное облако слов. Ниже мой код:
burgerkingtweets <- searchTwitter("#BurgerKing", n=500, lang="en", resultType = "recent")
mcdonaldstweets <- searchTwitter("#McDonalds", n=500, lang="en", resultType = "recent")
burgerking_df = twListToDF(burgerkingtweets)
mcdonalds_df = twListToDF(mcdonaldstweets)
burgerking_df$topic <- c("burgerking")
mcdonalds_df$topic <- c("mcdonalds")
alltweets <- bind_rows(burgerking_df, mcdonalds_df)
alltweets$day <- str_split_fixed(alltweets$created, " ",2)[,1]
docs <- VCorpus(VectorSource(alltweets$text))
docs <- tm_map(docs, PlainTextDocument)
docs <- tm_map(docs, content_transformer(function(x) iconv(x, to='ASCII', sub = 'byte')))
docs <- tm_map(docs, content_transformer(function(x) tolower(x)))
docs <- tm_map(docs, content_transformer(function(x) tolower(x)))
docs <- tm_map(docs, removeWords, stopwords('en'))
stripURL = function(x) {gsub("www[^[:space:]]+|htt[^[:space:]]+", "",x)}
docs <- tm_map(docs, content_transformer(stripURL))
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, removeWords, c("burgerking","mcdonalds"))
alltweets2 <- alltweets
docs_df <- data.frame(text= sapply(docs, paste, collapse =''), stringsAsFactors = FALSE)
alltweets2$tweet <-docs_df$text
alltweets2$tweet <- NULL
col=brewer.pal(8,'Set1')
topics <- unique(alltweets2$topic)
dat2cloud1 <- subset(alltweets2, topic==topic[1])
text2cloud1 <- dat2cloud1$tweet
corp1 <- VCorpus(VectorSource(text2cloud1))
tdm1 <- TermDocumentMatrix(corp1)
tdms1 <- removeSparseTerms(tdm1,0.99)
tdms1
termFrequency1 <- rowSums(as.matrix(tdms1))
set.seed(142)
wordcloud (words = names(termFrequency1), feq = termFrequency1, min.feq = 5, color = col)