Я пытаюсь выполнить биграмный анализ на фрейме данных df
со столбцом sentence
, который в основном представляет собой просто строки предложений, используя
library(dplyr)
library(tidytext)
bigram <- df %>%
unnest_tokens(bigram, sentence, token = "ngrams", n = 2) %>%
separate(bigram, c("word1", "word2"), sep = " ") %>%
count(word1, word2, sort = TRUE)
Однако я продолжаю получать 'wi''fi' как слово1 и слово2.
Например:
A tibble:
word1 word2 n
wi fi 300
Я хочу заменить все «wi fi» на «wifi», чтобы на выходе было:
A tibble:
word1 word2 n
good wifi 400
To toэто, я использовал
df$sentence <- gsub("\\<wi fi\\>", "wifi", df$sentence)
Однако, когда я запускаю код биграммы выше, я продолжаю получать 'wi' 'fi' как отдельные слова.
Как мне решить эту проблему?