Как рассчитать среднее значение случайных данных в R - PullRequest
0 голосов
/ 24 ноября 2018

Я новичок в R. У меня большой файл с несколькими столбцами, и меня попросили разбить данные на 2 части.Я R разделил данные случайным образом на 70% в группу под названием nTrain, и на 30% в группу под названием nTest.
Я смог разбить данные случайным образом, но теперь мне нужно вычислить СРЕДНЕЕопределенный столбец в 70% случайных данных и то же самое для 30% случайных данных.Может кто-нибудь объяснить, пожалуйста, как это сделать?

Спасибо.

Если это поможет понять мою ситуацию, это то, что я имею до сих пор в R:

length(DataFile)

(nData=nrow(DataFile))

DataFile

set.seed(0)

(trainIdx<- sample(seq(1,nrow(DataFile)), floor(nrow(DataFile)*0.70)))

> (nTrain=length(trainIdx))
[1] 15129

> (nTest=nData-nTrain)
[1] 6484

1 Ответ

0 голосов
/ 24 ноября 2018

Добро пожаловать в Stackoverflow!

  1. В соглашении R вы должны придерживаться оператора <- для большинства типов заданий (вы можете найти больше информации здесь и здесь ).
  2. Размещенный вами код / ​​вывод действительно неполный (например, вывод после первой строки length(DataFile) отсутствует).

Давайте пройдем этот шаг за шагом.

1.Создать фиктивные данные

set.seed(1701)
DataFile <- sample(seq(0, 1, 0.01), 10000, replace = TRUE)

2.Создайте набор данных

# This randomizes the order
DataSet <- sample(DataFile)

3.Сплит поезд и тест

split <- length(DataSet) * 0.7
# You use length() for one-dimensional objects, and
# nrow() for matrices, tables, etc.

DataTrain <- head(DataSet, split)
DataTest <- tail(DataSet, length(DataSet) - split)

# This approach avoids rounding errors when splitting and
# as our dataset is already randomized we can sample linearly.

4.Рассчитать среднее

> mean(DataTrain)
[1] 0.5029891
> mean(DataTest)
[1] 0.496056
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...