Я выполняю некоторые работы НЛП над набором данных ответов на опросы (используя приборку). Я вижу некоторые странные результаты, когда получаю количество биграмм и триграмм - результаты включают в себя биграммы и триграммы, которых нет в наборе данных.
Примеры биграмм, включая:
- "да да"
- "нет нет"
- "да нет"
Примеры триграмм включают в себя:
- «да да да»
- "нет да да"
- "х нет нет"
Вот мой код:
# bigram counts
bigrams <- survey %>%
unnest_tokens(ngram, token = "ngrams", n = 2,
input = survey_response)
# trigram counts
trigrams <- survey %>%
unnest_tokens(ngram, token = "ngrams", n = 3,
input = survey_response)
Я не верю, что это проблема кода, потому что раньше я выбирал биграммы и триграммы таким образом, и у меня не было этой проблемы.
Мне интересно, не являются ли ответы одним словом на входе survey_response
причиной проблемы. Есть много ответов, которые только «да» или «нет». Как R обрабатывает построение биграмм или триграмм, когда входное наблюдение - только одно слово? Будет ли оно каким-либо образом дублировать слово или вызывать другие проблемы?