Я хочу понять, как обрезка сложности затрат работает для дерева классификации.
Целевая функция в виньетке rpart записывается в виде: C (T) = L (T) + a | T |Вывод выглядит примерно так:
Root node error: 918.88/6556 = 0.14016
n= 6556
CP nsplit rel error xerror xstd
1 1.0601e-01 0 1.00000 1.00014 0.014656
2 4.2754e-02 1 0.89399 0.89449 0.014124
3 2.1616e-02 2 0.85124 0.85653 0.014096
4 1.8767e-02 3 0.82962 0.83743 0.014094
5 1.6263e-02 4 0.81085 0.82534 0.014101
6 1.2262e-02 5 0.79459 0.81128 0.014014
7 8.8741e-03 6 0.78233 0.79146 0.013765
8 8.0630e-03 8 0.76458 0.77939 0.013675
9 7.1858e-03 9 0.75651 0.76683 0.013592
10 6.3950e-03 10 0.74933 0.76073 0.013523
11 6.2451e-03 11 0.74293 0.75769 0.013517
12 5.6749e-03 12 0.73669 0.75479 0.013511
13 5.4084e-03 13 0.73101 0.74802 0.013383
14 4.4323e-03 14 0.72561 0.74151 0.013300
15 3.3961e-03 15 0.72117 0.74156 0.013360
Теперь у меня есть несколько вопросов:
Во-первых, является ли L (T) в функции C (T) индексом Джини?Ошибка rel и x error - это ошибка тренировки и тестового теста, верно?Но какова формула для этой ошибки?Это скорость ошибочной классификации или значение индекса Джини?