Майнинг смежных последовательных паттернов в R - PullRequest
0 голосов
/ 24 мая 2018

Я пытаюсь добыть последовательные последовательные шаблоны, которые часто встречаются во входных данных, используя R, но я не могу понять, как это сделать.Хотя, используя библиотеку tm, путь должен быть таким.

Например, учитывая эти данные:

A,B,A,C
A,C,A,B,A,B
B,A,A,C,D

... и min_support = 2, мы должны получить A,B, B,A, A,B,A и A,C паттернов.Кроме того, многократные появления подпоследовательности в одной записи последовательности не должны учитываться (поэтому A,B во второй строке следует считать только один раз, поэтому его поддержка равна 2, а не 3).Как это можно сделать с помощью R?Пытаясь следовать этому руководству (начинающемуся с "Словаря N-граммы"), я не смог правильно понять Словарь N-граммы.

Вот код, который я получил до сих пор:

# dummy data
df <- data.frame(doc_id = c(1:3),
                 text = c('AAA BBB AAA CCC', 'AAA CCC AAA BBB AAA BBB', 'BBB AAA AAA CCC DDD'),
                 stringsAsFactors = FALSE)
df_corpus <- tm::Corpus(DataframeSource(df))
BigramTokenizer <- function(x) {
    NGramTokenizer(x, Weka_control(min = 2, max = 2))
} 
bigram <- tm::TermDocumentMatrix(df_corpus, control = list(tokenize = BigramTokenizer)) 
inspect(bigram)
str(bigram)

Насколько я понимаю, этот код должен создать биграмму (как это было в связанной статье).Что мне не хватает?Версия R 3.4.1.

...