Quanteda проблемы в R - PullRequest
0 голосов
/ 30 мая 2018

Я использую Quanteda в R и создал корпус и dfm.Тем не менее, я заметил, что dfm и корпус содержат меньше документов, чем исходный файл.Буду признателен, если кто-нибудь может сообщить мне, почему это происходит и как это исправить?Спасибо

1 Ответ

0 голосов
/ 31 января 2019

Вы можете явно указать docid_field и text_field примерно так:

data_corpus = corpus(x = data,docid_field = "doc_id", text_field = "text")

, где doc_id и text - это столбцы в кадре данных data.

И затем вычислить матрицу элементов документа, используя функцию dfm пакета qunateda

data_dfm = dfm(data_corpus)
...