R quanteda dfm группировка не работает для всех документов - PullRequest
1 голос
/ 27 февраля 2020

У меня есть датафрейм ("PostsRaw"), содержащий документы (= сообщения в Facebook) от разных людей в разные даты. После создания corpus () и dfm () этого фрейма данных я захотел сгруппировать их в dfm с помощью функции dfm_group ().

Corpus1 <- corpus(PostsRaw)
Corpus1DFM <- dfm(Corpus1)
dfmDatumGroup <- dfm_group(Corpus1DFM, groups = colnames(docvars(Corpus1DFM))[3])

corpus information

Я могу отлично группировать по третьему документу с именем "Datum" (как по фактору или по дате), так и по всем документам, которые целое число, но я не могу сгруппировать по двум первым переменным «Poltiker» (= имя) и «Partei» (= политическая партия), как по фактору, так и по характеру.

dfmPoltikerGroup <- dfm_group(Corpus1DFM, groups = colnames(docvars(Corpus1DFM))[1])

с этими двумя я получаю сообщение об ошибке:

Error in x[as.character(levels(groups)), ] : Subscript out of bounds

Я попытался заполнить дополнительные аргументы и вызвать безуспешно.

У кого-нибудь есть идея, почему первые две переменные не работают, хотя они кажутся подходящими?

1 Ответ

0 голосов
/ 27 февраля 2020

Я нашел решение. В обоих документах, которые привели к ошибке, были значения / факторы с Umlaute Ü / Ä / Ö. Замена их на UE et c. решил это.

...