corpus_subset
определяет документы, которые должны быть сохранены, но как насчет указания документов для отбрасывания?Предположим, например, что я хочу отбросить документы, в которых появляется термин «терроризм», только до тех пор, пока термин появляется до 2001 года.
dfm_terror <- dfm(data_corpus_inaugural, select = "terrorism", valuetype = c("fixed"))
docvars(data_corpus_inaugural, "Terrorism") <- dfm_terror
documents_to_remove <- corpus_subset(data_corpus_inaugural, Terrorism >= 1 & Year < 2001)