Попытка разбить на биграммы после токенизации с помощью регулярных выражений - PullRequest
0 голосов
/ 08 июля 2019

Я пытаюсь проанализировать текст из твиттера.Я использовал конвейер, чтобы удалить URL-адреса и разбить текст на отдельные слова.Теперь я хочу расположить текст в биграммах.Но я не уверен, стоит ли делать это в том же конвейере или отдельно для выходов этого конвейера.

Это мой код для токенизации текста.

reg_words <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"
tidy_tweets <- all_tweet_text_for_corpus %>%
  filter(!str_detect(text, "^RT")) %>%
  mutate(text = str_replace_all(text, "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&amp;|&lt;|&gt;|RT|https", "")) %>%
  unnest_tokens(word, text, token = "regex", pattern = reg_words) %>%
  filter(!word %in% stop_words$word,
         str_detect(word, "[a-z]"))

ТеперьЯ хочу использовать unnest_tokens для создания биграмм.Но могу ли я интегрировать это в один и тот же конвейер или я должен сделать это отдельно?Если последнее, какими должны быть правильные входные данные?

Пока у меня есть это:

unnest_tokens(word, text, token = "ngrams", n=2)

Должен ли первый аргумент быть 'tidy_tweets' (фрейм данных, который уже был токенизирован)?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...