Соединить разделенный вектор из набора данных по уникальности с исходным набором данных, который включает более одного одинакового значения вектора? - PullRequest
0 голосов
/ 09 апреля 2019

В моем наборе данных с более чем 300000 наблюдений. У меня есть переменная x_1, которые имеют 3-4 каждого значения. Я пытаюсь разделить свой набор данных на два набора данных, где одно и то же значение x_1 не может появляться в обоих наборах данных. Поэтому я хотел бы создать уникальный вектор x_1, а затем разделить его случайным образом. Моя проблема заключается в том, чтобы сделать тот же выбор для набора данных, который я сделал для вектора уникального x_1. Я не могу заставить RR найти все значения, которые являются одинаковыми, и поместить их в один и тот же набор данных, он берет только одно из 3-4 значений и помещает их в набор данных. (см. код)

X1 <- data4["X1"]
X1Unique <- unique(X1)

set.seed(3456)
X1Divide <- createDataPartition(X1Unique$X1, p = .9, 
                                  list = FALSE, 
                                  times = 1)

#works fine for the uniquevector 
X1Train <- X1Unique[X1Divide,] 
X1Val <- CVRUn[-X1Divide,]

#doesn't work for the data set, get the same amount of observations 
as in X1Train, where I should have got 3-4 times more. 
TestTrain <- data4[,X1Divide]
Validering <- data4[-X1Divide,]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...