Проблема с ggplot для составления тем и ДАТЫ набора данных twitter в LDA - PullRequest
0 голосов
/ 01 ноября 2018

Я пытался построить график плотности для тем и даты твитов, как это https://rpubs.com/Alexreda/224494.

Однако после удаления пустых строк DTM я не могу найти способ удалить соответствующие даты для этого.

dtm <- as.DocumentTermMatrix(tdm)

rowTotals <- apply(dtm , 1, sum) #Find the sum of words in each Document
dtm.new   <- dtm[rowTotals> 0, ] #remove all docs without words
lda <- LDA(dtm.new, k = 4) # find 4 topics
term <- terms(lda, 4) # first 4 terms of every topic
(term <- apply(term, MARGIN = 2, paste, collapse = ", "))


topics <- topics(lda)
topics <- data.frame(date=mynegativedata$tweet_created, topic = topics)
ggplot(topics, aes(date, fill = term[topic])) + 
  geom_density(position = "stack") + 
  theme(legend.position=c(0.2, 0.8))

Таким образом я получаю следующую ошибку:

Ошибка в data.frame (date = mynegativedata $ tweet_created, topic = разделы): аргументы подразумевают различное количество строк: 9000, 8992

Ценю вашу помощь. Заранее спасибо !!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...