соответствие строки и замена в биграмном анализе R - PullRequest
0 голосов
/ 01 декабря 2018

Я пытаюсь выполнить биграмный анализ на фрейме данных df со столбцом sentence, который в основном представляет собой просто строки предложений, используя

library(dplyr)
library(tidytext)

bigram <- df %>%
unnest_tokens(bigram, sentence, token = "ngrams", n = 2) %>%
separate(bigram, c("word1", "word2"), sep = " ") %>%
count(word1, word2, sort = TRUE) 

Однако я продолжаю получать 'wi''fi' как слово1 и слово2.

Например:

A tibble:
word1   word2   n
wi      fi     300

Я хочу заменить все «wi fi» на «wifi», чтобы на выходе было:

A tibble:
word1   word2    n
good    wifi    400

To toэто, я использовал

df$sentence <- gsub("\\<wi fi\\>", "wifi", df$sentence)

Однако, когда я запускаю код биграммы выше, я продолжаю получать 'wi' 'fi' как отдельные слова.
Как мне решить эту проблему?

...