Как биграммы в R обрабатывают ввод из 1 слова? - PullRequest
1 голос
/ 12 марта 2019

Я выполняю некоторые работы НЛП над набором данных ответов на опросы (используя приборку). Я вижу некоторые странные результаты, когда получаю количество биграмм и триграмм - результаты включают в себя биграммы и триграммы, которых нет в наборе данных.

Примеры биграмм, включая:

  • "да да"
  • "нет нет"
  • "да нет"

Примеры триграмм включают в себя:

  • «да да да»
  • "нет да да"
  • "х нет нет"

Вот мой код:

# bigram counts
bigrams <- survey %>%
unnest_tokens(ngram, token = "ngrams", n = 2,
              input = survey_response)

# trigram counts
trigrams <- survey %>%
unnest_tokens(ngram, token = "ngrams", n = 3,
              input = survey_response)

Я не верю, что это проблема кода, потому что раньше я выбирал биграммы и триграммы таким образом, и у меня не было этой проблемы.

Мне интересно, не являются ли ответы одним словом на входе survey_response причиной проблемы. Есть много ответов, которые только «да» или «нет». Как R обрабатывает построение биграмм или триграмм, когда входное наблюдение - только одно слово? Будет ли оно каким-либо образом дублировать слово или вызывать другие проблемы?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...