0 наблюдений N переменных - PullRequest
0 голосов
/ 02 августа 2020

У меня есть набор данных, который выглядит так:

y  Age   Height
0  Aage  Aheight
1  Bage  Bheight

Все переменные разделены как минимум на две категории. Когда я открываю набор данных с кодом:

DM_input = read.csv(file="C:/Users/user/Desktop/test.CSV",header = TRUE, sep = ",")

R правильно показывает: 5040 наблюдений 11 переменных. Когда я пытаюсь разбить набор данных на тест и тренировать с помощью следующего кода:

> train <- DM_input[DM_input$rand <= 0.7, c(2,3,4,5,6,7,8,9,10)]
> test <- DM_input[DM_input$rand > 0.7, c(2,3,4,5,6,7,8,9,10)]

, я получаю 0 наблюдений из 11 переменных, а таблицы пусты. Не понимаю, почему это происходит, убрал спецсимволы - не помогло. Спасибо

1 Ответ

0 голосов
/ 02 августа 2020

Я думаю, что sample.int может помочь вам разбить набор данных.

Вот пример:

data(iris)

# number of rows of dataset
size_iris <- nrow(iris)

# set the proportion of sample split to 0.7
size_sample <- floor(0.7*size_iris)

# set a reproducible random result
set.seed(2020)

# sample the dataset
mysample <- sample.int(n=size_iris, size=size_sample, replace=F)
train <- iris[mysample,]
test <- iris[-mysample,]

# checking sizes
size_iris
[1] 150
nrow(train)
[1] 105
nrow(test)
[1] 45

Здесь есть аналогичный вопрос с множеством хороших ответов: Как разделить данные на наборы для обучения / тестирования с помощью функции выборки

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...