texttat_keyness в Quanteda используется для сравнения относительной частоты СЛОВ / ЛЕММАС в двух (под) корпусах. Но я хочу сравнить части речи, а не слова. Тогда я хочу построить это. Я смог использовать текстовые ключи для слов без проблем, используя следующее:
# compare subcorpusA v subcorpusB terms using grouping
genre <- ifelse(docvars(corpusAB, "genre") == "group", "group", "group2")
dfmat3 <- dfm(corpusAB, groups = genre)
head(tstat1 <- textstat_keyness(dfmat3, measure = "lr", sort = TRUE, correction = "williams"), 20)
tail(tstat1, 20)
head(dfmat3)
textplot_keyness(tstat1, show_reference = TRUE,
show_legend = TRUE,
n = 40,
min_count = 5, margin = 0.05,
color = c("darkblue", "gray")
, labelcolor = "gray30",
labelsize = 2,
font = NULL)
Я также токенизировал корпус, используя tokens (), и проанализировал, используя spacy_parse. Но я не могу понять, как соединить два. Есть ли способ сказать Quanteda, чтобы он запускал текстовые сообщения в POS вместо слов?