У меня есть таблица данных с 3640 000 наблюдениями (55,5 МБ) и тремя столбцами.Я пытаюсь разделить эти данные на тренировочный набор и тестовый набор для построения простой модели линейной регрессии.Вот мой код.
library(caTools)
set.seed(123)
split <- sample.split(datasetSubset$TOTAL_POS, SplitRatio = 0.75)
training_set <- subset(datasetSubset, split == TRUE)
test_set <- subset(datasetSubset, split == FALSE)
sample.split работает вечно (я пробовал работать несколько часов, но не закончил).Любая идея, как я могу создать тренировочный набор и тестовый набор?
Что в итоге сработало? У меня возникли трудности Установка пакета Caret .
Решение, предложенное @aginensky, сработало.
Также сработало следующее (как предположил Алекс, ассистент по преподаванию в Udemy)
install.packages("tidyverse")
library(tidyverse)
datasetSubset$id <- 1:nrow(datasetSubset)
train <- datasetSubset %>% dplyr::sample_frac(.75)
test <- dplyr::anti_join(datasetSubset, train, by = 'id')