Question

У меня есть таблица данных с 3640 000 наблюдениями (55,5 МБ) и тремя столбцами.Я пытаюсь разделить эти данные на тренировочный набор и тестовый набор для построения простой модели линейной регрессии.Вот мой код.

library(caTools)
set.seed(123)
split <- sample.split(datasetSubset$TOTAL_POS, SplitRatio = 0.75)
training_set <- subset(datasetSubset, split == TRUE)
test_set <- subset(datasetSubset, split == FALSE)

sample.split работает вечно (я пробовал работать несколько часов, но не закончил).Любая идея, как я могу создать тренировочный набор и тестовый набор?

Что в итоге сработало? У меня возникли трудности Установка пакета Caret .

Решение, предложенное @aginensky, сработало.

Также сработало следующее (как предположил Алекс, ассистент по преподаванию в Udemy)

install.packages("tidyverse")
library(tidyverse)
datasetSubset$id <- 1:nrow(datasetSubset)
train <- datasetSubset %>% dplyr::sample_frac(.75)
test  <- dplyr::anti_join(datasetSubset, train, by = 'id')

R sample.split (большой вектор) занимает вечность

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

R sample.split (большой вектор) занимает вечность

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов