Question

Я выполняю некоторые работы НЛП над набором данных ответов на опросы (используя приборку). Я вижу некоторые странные результаты, когда получаю количество биграмм и триграмм - результаты включают в себя биграммы и триграммы, которых нет в наборе данных.

Примеры биграмм, включая:

"да да"
"нет нет"
"да нет"

Примеры триграмм включают в себя:

«да да да»
"нет да да"
"х нет нет"

Вот мой код:

# bigram counts
bigrams <- survey %>%
unnest_tokens(ngram, token = "ngrams", n = 2,
              input = survey_response)

# trigram counts
trigrams <- survey %>%
unnest_tokens(ngram, token = "ngrams", n = 3,
              input = survey_response)

Я не верю, что это проблема кода, потому что раньше я выбирал биграммы и триграммы таким образом, и у меня не было этой проблемы.

Мне интересно, не являются ли ответы одним словом на входе survey_response причиной проблемы. Есть много ответов, которые только «да» или «нет». Как R обрабатывает построение биграмм или триграмм, когда входное наблюдение - только одно слово? Будет ли оно каким-либо образом дублировать слово или вызывать другие проблемы?

Как биграммы в R обрабатывают ввод из 1 слова?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как биграммы в R обрабатывают ввод из 1 слова?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов