Проблемы с проектом очистки данных - PullRequest
0 голосов
/ 01 ноября 2018

Я работаю над неструктурированным заданием по сбору данных для класса, и у меня возникают проблемы, когда я манипулирую корпусом. Когда я закончу с удалением всех ненужных слов и знаков препинания, у меня не останется ничего, чтобы создать визуальное облако слов. Ниже мой код:

burgerkingtweets <- searchTwitter("#BurgerKing", n=500, lang="en", resultType = "recent")
mcdonaldstweets <- searchTwitter("#McDonalds", n=500, lang="en", resultType = "recent")

burgerking_df = twListToDF(burgerkingtweets)
mcdonalds_df = twListToDF(mcdonaldstweets)

burgerking_df$topic <- c("burgerking")
mcdonalds_df$topic <- c("mcdonalds")

alltweets <- bind_rows(burgerking_df, mcdonalds_df)
alltweets$day <- str_split_fixed(alltweets$created, " ",2)[,1]

docs <- VCorpus(VectorSource(alltweets$text))
docs <- tm_map(docs, PlainTextDocument)

docs <- tm_map(docs, content_transformer(function(x) iconv(x, to='ASCII', sub = 'byte')))
docs <- tm_map(docs, content_transformer(function(x) tolower(x)))
docs <- tm_map(docs, content_transformer(function(x) tolower(x)))
docs <- tm_map(docs, removeWords, stopwords('en'))

stripURL = function(x) {gsub("www[^[:space:]]+|htt[^[:space:]]+", "",x)}

docs <- tm_map(docs, content_transformer(stripURL))
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, removeWords, c("burgerking","mcdonalds"))

alltweets2 <- alltweets

docs_df <- data.frame(text= sapply(docs, paste, collapse =''), stringsAsFactors = FALSE)

alltweets2$tweet <-docs_df$text
alltweets2$tweet <- NULL

col=brewer.pal(8,'Set1')
topics <- unique(alltweets2$topic)

dat2cloud1 <- subset(alltweets2, topic==topic[1])
text2cloud1 <- dat2cloud1$tweet

corp1 <- VCorpus(VectorSource(text2cloud1))

tdm1 <- TermDocumentMatrix(corp1)
tdms1 <- removeSparseTerms(tdm1,0.99)
tdms1
termFrequency1 <- rowSums(as.matrix(tdms1))

set.seed(142)
wordcloud (words = names(termFrequency1), feq = termFrequency1, min.feq = 5, color = col)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...