У меня есть набор данных, который выглядит примерно так:
sentences <- c("sample text in sentence 1", "sample text in sentence 2")
id <- c(1,2)
df <- data.frame(sentences, id)
Я хотел бы иметь счетчик, по которому я могу видеть появление определенных биграмм. Допустим, у меня есть:
trigger_bg_1 <- "sample text"
Я ожидаю, что на выходе будет 2 (так как в двух предложениях есть два вхождения «образца текста». Я знаю, как подсчитать слова следующим образом:
trigger_word_sentence <- 0
for(i in 1:nrow(df)){
words <- df$sentences[i]
words = strsplit(words, " ")
for(i in unlist(words)){
if(i == trigger_word_sentence){
trigger_word_sentence = trigger_word_sentence + 1
}
}
}
Но я не могу заставить что-то работать для биграммы. Есть мысли о том, как мне изменить код, чтобы заставить его работать?
Но поскольку у меня есть длинный тест триггерных слов, который я нужно посчитать более