Какова цель группового аргумента в sample.split? - PullRequest
1 голос
/ 30 апреля 2020

Я перечитал документацию из sample.split в пакете CaTools, и я пытаюсь придумать какую-либо практическую причину использования аргумента group. Есть ли области, где он увидел практическое применение? В моих попытках поэкспериментировать с этим я даже не смог найти вескую причину для того, чтобы напечатать вектор такой же длины, как мой набор данных.

1 Ответ

1 голос
/ 30 апреля 2020

Если мы go рассмотрим пример в ?sample.split, с 'group', он будет сэмплирован как блок, и без использования group, он будет другим. Согласно группе ?sample.split

- необязательный вектор / список, используемый при наличии нескольких копий каждого образца. В таком случае группа содержит уникальные метки образцов, помечая все копии одного и того же образца одинаковыми метками, и функция пытается поместить все копии в набор или последовательность тестов. Если указан, то он должен иметь ту же длину, что и Y.

library(MASS)
library(caTools)
data(cats)   # load cats data
Y <- cats[,1] # extract labels from the data
msk1 <- sample.split(Y, SplitRatio=3/4)


g <- rep(seq(length(Y)/4), each=4); g[48]=12;
msk2 <- sample.split(Y, SplitRatio=3/4, group=g)

...