Сбросить документы из корпуса в Quanteda, если выполнены два условия - PullRequest
0 голосов
/ 08 февраля 2019

corpus_subset определяет документы, которые должны быть сохранены, но как насчет указания документов для отбрасывания?Предположим, например, что я хочу отбросить документы, в которых появляется термин «терроризм», только до тех пор, пока термин появляется до 2001 года.

dfm_terror <- dfm(data_corpus_inaugural, select = "terrorism", valuetype = c("fixed"))
docvars(data_corpus_inaugural, "Terrorism") <- dfm_terror

documents_to_remove <- corpus_subset(data_corpus_inaugural, Terrorism >= 1 & Year < 2001)

1 Ответ

0 голосов
/ 09 февраля 2019

corpus_subset сохраняет документы, указанные в вашем подмножестве, как вы правильно описываете.Поэтому Terrorism> = 1 & Year <2001 вернет приведенный ниже документ.</p>

            Year President FirstName Terrorism
1981-Reagan 1981    Reagan    Ronald         1

Но чтобы получить обратное, просто отмените выбор подмножества.При этом будут выбраны все документы, кроме указанного выше.

corpus_subset(data_corpus_inaugural, !(Terrorism >= 1 & Year < 2001))
...