Ошибка: не удается найти столбец `RH_train` в` .data` - PullRequest
0 голосов
/ 09 октября 2019

Я пытаюсь обучить модель с помощью пакета каретки (Случайный лес), после выполнения кода "train" я получаю: Ошибка: Не удается найти столбец RH_train в .data. Затем я попытался преобразовать зависимую переменную (Rendimiento) в фактор, но я получил: Ошибка: по крайней мере один из уровней класса не является допустимым именем переменной R;Это приведет к ошибкам при генерировании вероятностей классов, поскольку имена переменных будут преобразованы в X0, X0.5, X0.6, X0.65, X0.7, X0.75, X0.79, X0.8, X0.81X0,82 X0,83 X0,85 X0,86 X0,87 X0,88 X0,9 X1. Пожалуйста, используйте уровни факторов, которые можно использовать в качестве допустимых имен переменных R (см.? Make.names для справки).

library(rpart)
library(rpart.plot)
library(RWekajars)
library(randomForest)
library(party)
library(caret)
library(e1071)
library(dplyr)


####Cargar base de datos####
setwd("C:/Users/Frankenstein/Downloads")
RH <- read_excel("RH.xlsx")
RH$`Año Ingreso`=NULL
RH$`Mes ingreso`=NULL
RH$`Status empleado para Gestión t`=NULL
RH$`Horario trabajo`=NULL
RH$Nacional=NULL
RH$Jefe=NULL
RH$`N Personal`=NULL

colnames(RH)
names(RH)[names(RH) == "Grado de distancia"] <- "Distancia"
names(RH)[names(RH) == "Clave para el estado civil"] <- "EstadoCivil"
names(RH)[names(RH) == "Clave de sexo"] <- "Sexo"




####Analizar la estructura del los datos#
str(RH)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':   325 obs. of  10 variables:
 $ Rendimiento: num  0.6 0.8 0.85 0.86 0.85 0.8 1 0.86 1 0.9 ...
 $ Edad       : num  36 37 21 26 25 28 32 32 29 36 ...
 $ Posición   : chr  "ANA" "ANA" "AUX" "AUX" ...
 $ Sexo       : num  1 1 0 1 1 1 1 1 1 1 ...
 $ Distancia  : num  5 3 1 1 3 2 2 4 5 4 ...
 $ Estrato    : num  2 5 3 3 3 3 5 2 5 6 ...
 $ EstadoCivil: num  1 2 1 1 1 1 2 1 1 2 ...
 $ Hijos      : num  1 1 0 0 0 0 0 1 0 0 ...
 $ Formación  : chr  "PREGRADO" "PREGRADO" "PREGRADO" "PREGRADO" ...
 $ Educación  : num  3 3 3 3 3 3 4 3 3 3 ...

hist(RH$Rendimiento)
summary(RH)

####Dividir datos en entrenamiento y testeo####
glimpse(RH_train)
glimpse(RH_test)
RH_train <- RH[1:243, ]
RH_test <- RH[244:325, ]

# Define the control
trControl <- trainControl(method = "cv",
                          number = 10,
                          search = "grid",
                          classProb=TRUE)

set.seed(1234)

RH_train$Rendimiento=factor(RH_train$Rendimiento)
RendimientoFactor=factor(RH_train$Rendimiento)

# Run the model
rf_default <- train(RH_train$Rendimiento ~ RH_train$Edad + RH_train$Sexo + RH_train$Distancia + RH_train$Estrato + RH_train$EstadoCivil + RH_train$Hijos + RH_train$Educación, 
                    data=RH_train, 
                    method = "rf",
                    metric = "Accuracy",
                    trControl = trControl)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...