В моем наборе данных с более чем 300000 наблюдений. У меня есть переменная x_1, которые имеют 3-4 каждого значения. Я пытаюсь разделить свой набор данных на два набора данных, где одно и то же значение x_1 не может появляться в обоих наборах данных. Поэтому я хотел бы создать уникальный вектор x_1, а затем разделить его случайным образом. Моя проблема заключается в том, чтобы сделать тот же выбор для набора данных, который я сделал для вектора уникального x_1. Я не могу заставить RR найти все значения, которые являются одинаковыми, и поместить их в один и тот же набор данных, он берет только одно из 3-4 значений и помещает их в набор данных. (см. код)
X1 <- data4["X1"]
X1Unique <- unique(X1)
set.seed(3456)
X1Divide <- createDataPartition(X1Unique$X1, p = .9,
list = FALSE,
times = 1)
#works fine for the uniquevector
X1Train <- X1Unique[X1Divide,]
X1Val <- CVRUn[-X1Divide,]
#doesn't work for the data set, get the same amount of observations
as in X1Train, where I should have got 3-4 times more.
TestTrain <- data4[,X1Divide]
Validering <- data4[-X1Divide,]