Выбор двух несмежных файлов для формирования подмножества в Quanteda - PullRequest
1 голос
/ 08 марта 2019

Я надеюсь получить совет относительно выбора двух или более несмежных файлов для формирования подгруппы. Этот код выбирает 1 файл: testcorpus <- тексты (txtdata) [2] </p>

Если бы я хотел сформировать корпус, объединяющий файлы 1 и 25, как бы я это сделал:

Я попытался изменить код, который нашел в сети, со следующими результатами:

> my_corpus1 <- corpus(txtdata)[1] 
> my_corpus2 <- corpus(txtdata)[25] 
> my_corpus3 <- ( my_corpus1 + my_corpus2)
Error in my_corpus1 + my_corpus2 : 
  non-numeric argument to binary operator

>  xx <- corpus(txtdata)[1]  + corpus(txtdata)[25] 
Error in corpus(txtdata)[1] + corpus(txtdata)[25] : 
  non-numeric argument to binary operator

> my_corpus3 <-c( my_corpus1 + my_corpus2)
Error in my_corpus1 + my_corpus2 : 
  non-numeric argument to binary operator

Любой совет приветствуется,

Bob

1 Ответ

0 голосов
/ 09 марта 2019

Я бы сделал это следующим образом:

library("quanteda")
## Package version: 1.4.1
## Parallel computing: 2 of 12 threads used.
## See https://quanteda.io for tutorials and examples.

corpus_subset(
  data_corpus_inaugural,
  seq_len(ndoc(data_corpus_inaugural)) %in% c(1, 25)
)
## Corpus consisting of 2 documents and 3 docvars.

Аргумент подмножества здесь возвращает логический вектор, в котором первый и 25-й элементы являются истинными, а остальные ложными, что выбирает эти документы в ваш подкорпус.

...