Я пытаюсь проанализировать текст из твиттера.Я использовал конвейер, чтобы удалить URL-адреса и разбить текст на отдельные слова.Теперь я хочу расположить текст в биграммах.Но я не уверен, стоит ли делать это в том же конвейере или отдельно для выходов этого конвейера.
Это мой код для токенизации текста.
reg_words <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"
tidy_tweets <- all_tweet_text_for_corpus %>%
filter(!str_detect(text, "^RT")) %>%
mutate(text = str_replace_all(text, "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&|<|>|RT|https", "")) %>%
unnest_tokens(word, text, token = "regex", pattern = reg_words) %>%
filter(!word %in% stop_words$word,
str_detect(word, "[a-z]"))
ТеперьЯ хочу использовать unnest_tokens для создания биграмм.Но могу ли я интегрировать это в один и тот же конвейер или я должен сделать это отдельно?Если последнее, какими должны быть правильные входные данные?
Пока у меня есть это:
unnest_tokens(word, text, token = "ngrams", n=2)
Должен ли первый аргумент быть 'tidy_tweets' (фрейм данных, который уже был токенизирован)?