Это то, что я сделал в R, используя данные Гальтона из пакета HistData:
Код:
library(HistData)
galton_heights <- GaltonFamilies %>%
filter(childNum==1 & gender=="male") %>%
select(father, childHeight) %>%
rename(son = childHeight)
library(caret)
y <- galton_heights$son
test_index <- createDataPartition(y, times=1, p=0.5, list=F)
Как видно на рисунке, createDataPartition () разбил набор данных galton_heights на 91 и 88 строк соответственно. Но если времена = 1 и р = 0,5, не следует ли разделить данные равномерно, например, на 89 и 90 строк?