Я занимаюсь майнингом текста.Я хочу сделать ngram, но он всегда работает как униграмма.
# myprogram
library(tm)
library(ngram)
library(RColorBrewer)
library(wordcloud)
library(RWeka)
library(data.table)
library(dplyr)
setwd('F:/My files/specification')
df<- read.csv('spec.csv')
test<- Corpus(VectorSource(df$doc1))
test <- tm_map(test, tolower)
test <- tm_map(test, stripWhitespace)
test <- tm_map(test, removeNumbers)
test <- tm_map(test, removePunctuation)
test <- tm_map(test, function(x) removeWords(x, stopwords("english")))
test <- tm_map(test, stemDocument, language = "english")
test
tok <- function(x) NGramTokenizer(x, Weka_control(min=2, max=10))
tdm <- TermDocumentMatrix(test,control = list(tokenize = tok))
termFreq <- rowSums(as.matrix(tdm))
termFreqVector <- as.list(termFreq)
test2 <- data.frame(unlist(termFreqVector), stringsAsFactors=FALSE)
setDT(test2, keep.rownames = TRUE)[]
setnames(test2, 1, "term")
setnames(test2, 2, "freq")
test3 <- head(arrange(test2,desc(freq)), n = 30)
ggplot(data=test3, aes(x=reorder(term, freq), y=freq)) + geom_bar(stat="identity") +
theme(axis.text.x = element_text(angle = 90, hjust = 1)) + coord_flip()
....................................................................
Это моя программа,Я видел в некоторых вопросах, что мне нужно установить версию пакета 0,6-2 тм, я пытался, но она недоступна для версии R 3.5.0.
Пожалуйста, помогите мне.