найти наиболее часто встречающиеся комбинированные слова - PullRequest
0 голосов
/ 01 апреля 2019

Я пытаюсь выполнить анализ текста для набора кратких описаний:

Short description
Login failed for user
login failed
Authentication for login failed
server unavailable ping failure
Server unavailable
server not starting

, и я пытаюсь найти возникшую проблему maxiumum.Я применяю нижеприведенное после создания соответствующего корпуса:

dataset = as.data.frame(as.matrix(dtm))
dataset$Liked = sdr$Liked
dataset = as.matrix(dtm)
v = sort(colSums(dataset),decreasing=TRUE)
myNames = names(v)
d = data.frame(word=myNames,freq=v)

Вывод здесь дает мне частоту подсчета одного слова.Я хочу найти случаи, когда слова сошлись воедино.Мой ожидаемый результат -

login failed         2
server unavailable   2

Возможно ли это?

1 Ответ

1 голос
/ 03 апреля 2019

Вы можете определить тестовую строку и сосчитать length s с sapply.

test <- c("login failed", "server unavailable")
sapply(test, function(x) length(grep(x, tolower(dat$short))))
# login failed server unavailable 
#            3                  2 

Данные

dat <- structure(list(short = structure(c(7L, 3L, 2L, 1L, 6L, 5L, 4L
), .Label = c("Authentication for login failed", "login failed", 
"Login failed for user", "server not starting", "Server unavailable", 
"server unavailable ping failure", "Short description"), class = "factor")), class = "data.frame", row.names = c(NA, 
-7L))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...