Да, вы хотите dfm_trim()
, который позволяет вам указать порог частоты документа в виде количества (документов) или пропорций документов.
(Примечание: однажды в dfm, измерение слова элементы больше не являются токенами, а скорее «функциями» в терминологии quanteda .)
Используя встроенный пример, код ниже показывает, как использовать dfm_trim()
с минимальной частотой документа порог 0,15 и тип частоты документа "prop", который обрабатывает пороговое значение, которое вы предоставляете, как пропорцию. Из изменения количества объектов вы можете видеть, что произошла значительная обрезка.
library("quanteda")
## Package version: 2.0.1
dfmat <- dfm(data_corpus_inaugural)
print(dfmat, max_ndoc = 0, max_nfeat = 0)
## Document-feature matrix of: 58 documents, 9,360 features (91.8% sparse) and 4 docvars.
dfm_trim(dfmat, min_docfreq = 0.15, docfreq_type = "prop") %>%
print(max_ndoc = 0, max_nfeat = 0)
## Document-feature matrix of: 58 documents, 1,304 features (65.3% sparse) and 4 docvars.