разделение поезда / теста с повторными измерениями - PullRequest
0 голосов
/ 11 октября 2018

Я хочу попробовать случайный лес на этих данных, где y = счастливый после x = съел.Некоторым из этих людей повезло, и они получили два бесплатных приема пищи, а некоторые получили только одно.Могу ли я использовать rsample, чтобы убедиться в том, что один и тот же идентификатор (в данном случае 5) не появляется и в разделении на поезд и тест?Если нет, то как мне это сделать?

library(tibble)
library(rsample)

set.seed(123)
dframe <- tibble(id = c(1,1,2,2,3,4,5,5,6,7), 
                 ate = sample(c("cookie", "slug"), size = 10, replace = TRUE),
                 happy = sample(c("yes", "no"), size = 10, replace = TRUE))


dframe_split <- initial_split(dframe, strata = "happy")
dframe_train <- training(dframe_split)
dframe_test <- testing(dframe_split)

Создано в 2018-10-11 пакетом представлением (v0.2.0).

1 Ответ

0 голосов
/ 12 октября 2018

Начиная с rsample 0.0.2, единственным документированным способом выполнения разделения, подобным этому, с использованием этой библиотеки, кажется, является функция group_vfold_cv, пример:

resamples <- group_vfold_cv(dframe, group='id', v=3)
lapply(resamples$splits, training)
lapply(resamples$splits, testing)
...