Я создал дерево классификации, используя функцию rpart, и установил xval = 10, чтобы выполнить 10-кратную перекрестную проверку. Ниже вы можете увидеть код.
RegTreeOhneSelektion <- rpart(LogStundenlohn ~ Geschlecht + Bundesland + ArbeitsmarkterfahrungVollzeit +
I((ArbeitsmarkterfahrungTeilzeit^2)/100)+ ArbeitsmarkterfahrungTeilzeit +
I((ArbeitsmarkterfahrungVollzeit^2)/100) + DauerUnternehmenszugehörigkeit + öffenticherDienst +
Branche + Unternehmengroesse +I((DauerUnternehmenszugehörigkeit^2)/100)
+ Migrationshintergrund +Bildungsgrad
, data = subset(trainSet2015,Partizipation == 1),
method = "anova",control = rpart.control(cp = 0,xval = 10))
После этого я посмотрел с помощью функции plotcp()
на график перекрестной проверки, и результаты меня смутили. Исходная точка графика дает ошибку перекрестной проверки, превышающую 1. Как это возможно, если ошибкой перекрестной проверки для дерева классификации является коэффициент ошибочной классификации, который может быть максимальным 1?
Ниже вы можете увидеть сюжет и заголовок printcp()
вывода
Root node error: 7248/14496 = 0.5
n= 14496
CP nsplit rel error xerror
1 1.9674e-01 0 1.00000 1.03339
2 1.4307e-01 1 0.80326 0.80326
3 3.1802e-02 2 0.66018 0.66018
4 2.0557e-02 4 0.59658 0.60196
5 1.4487e-02 5 0.57602 0.58182