Я ищу способ сравнить гистограммы слов по документам, принадлежащим к папке с несколькими документами. Я попытался сделать:
freq <- sort(colSums(as.matrix(dtm), group=Docs), decreasing=TRUE)
Также и попробовал в ggplot вариант:
p <- p + geom_bar(stat="identity") + facet_wrap(~ Docs)
но, к сожалению, я получил ошибку.
Ниже приведен модифицированный пример моего кода, но, к сожалению, мои 3 документа построены как один и не сегментированы Документами:
c= c("hola como hola como hola como", "hola me fui hola me fui hola me fui hola me fui", "hola como estas hola como estas hola como estas" )
corpus= VCorpus(VectorSource(c))
dtm <- DocumentTermMatrix(corpus)
m <- as.matrix(dtm)
m
freq <- sort(colSums(as.matrix(dtm)), decreasing=TRUE)
wf <- data.frame(word=names(freq), freq=freq)
p <- ggplot(subset(wf, freq>1), aes(word, freq))
p <- p + geom_bar(stat="identity")
p <- p + theme(axis.text.x=element_text(angle=45, hjust=1))
p