ngram не работает должным образом всегда unigram - PullRequest
0 голосов
/ 07 июня 2018

Я занимаюсь майнингом текста.Я хочу сделать ngram, но он всегда работает как униграмма.

# myprogram
library(tm)
library(ngram)
library(RColorBrewer)
library(wordcloud)
library(RWeka)
library(data.table)
library(dplyr)

setwd('F:/My files/specification')
df<- read.csv('spec.csv')
test<- Corpus(VectorSource(df$doc1))
test <- tm_map(test, tolower)
test <- tm_map(test, stripWhitespace)
test <- tm_map(test, removeNumbers)
test <- tm_map(test, removePunctuation)
test <- tm_map(test, function(x) removeWords(x, stopwords("english")))
test  <- tm_map(test, stemDocument, language = "english") 
test  


tok <- function(x) NGramTokenizer(x, Weka_control(min=2, max=10))
tdm <- TermDocumentMatrix(test,control = list(tokenize = tok))
termFreq <- rowSums(as.matrix(tdm))
termFreqVector <- as.list(termFreq)
test2 <- data.frame(unlist(termFreqVector), stringsAsFactors=FALSE)
setDT(test2, keep.rownames = TRUE)[]
setnames(test2, 1, "term")
setnames(test2, 2, "freq")
test3 <- head(arrange(test2,desc(freq)), n = 30)

ggplot(data=test3, aes(x=reorder(term, freq), y=freq)) + geom_bar(stat="identity") + 
  theme(axis.text.x = element_text(angle = 90, hjust = 1)) + coord_flip()

....................................................................

Это моя программа,Я видел в некоторых вопросах, что мне нужно установить версию пакета 0,6-2 тм, я пытался, но она недоступна для версии R 3.5.0.

Пожалуйста, помогите мне.

1 Ответ

0 голосов
/ 08 июня 2018

Я обнаружил, что проблема не в пакете tm, потому что я получил ответ с необработанными данными. Мои данные - это CSV-файл с 15 строками и 5 столбцами.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...