Почему я получаю ошибку перекрестной проверки, которая больше для дерева классификации? - PullRequest
0 голосов
/ 03 июня 2019

Я создал дерево классификации, используя функцию rpart, и установил xval = 10, чтобы выполнить 10-кратную перекрестную проверку. Ниже вы можете увидеть код.

RegTreeOhneSelektion <- rpart(LogStundenlohn ~ Geschlecht + Bundesland + ArbeitsmarkterfahrungVollzeit +
                          I((ArbeitsmarkterfahrungTeilzeit^2)/100)+ ArbeitsmarkterfahrungTeilzeit +
                          I((ArbeitsmarkterfahrungVollzeit^2)/100) + DauerUnternehmenszugehörigkeit   + öffenticherDienst + 
                          Branche + Unternehmengroesse +I((DauerUnternehmenszugehörigkeit^2)/100) 
                           + Migrationshintergrund +Bildungsgrad
                        , data = subset(trainSet2015,Partizipation == 1),
                        method = "anova",control = rpart.control(cp = 0,xval = 10))

После этого я посмотрел с помощью функции plotcp() на график перекрестной проверки, и результаты меня смутили. Исходная точка графика дает ошибку перекрестной проверки, превышающую 1. Как это возможно, если ошибкой перекрестной проверки для дерева классификации является коэффициент ошибочной классификации, который может быть максимальным 1?

Ниже вы можете увидеть сюжет и заголовок printcp() вывода

enter image description here

Root node error: 7248/14496 = 0.5

n= 14496 

           CP nsplit rel error  xerror
1  1.9674e-01      0   1.00000 1.03339
2  1.4307e-01      1   0.80326 0.80326
3  3.1802e-02      2   0.66018 0.66018
4  2.0557e-02      4   0.59658 0.60196
5  1.4487e-02      5   0.57602 0.58182
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...