Какая функция потерь используется для обрезки дерева классификации в rpart? - PullRequest
0 голосов
/ 04 мая 2019

Я хочу понять, как обрезка сложности затрат работает для дерева классификации.

Целевая функция в виньетке rpart записывается в виде: C (T) = L (T) + a | T |Вывод выглядит примерно так:

Root node error: 918.88/6556 = 0.14016

n= 6556 

            CP nsplit rel error  xerror     xstd
1   1.0601e-01      0   1.00000 1.00014 0.014656
2   4.2754e-02      1   0.89399 0.89449 0.014124
3   2.1616e-02      2   0.85124 0.85653 0.014096
4   1.8767e-02      3   0.82962 0.83743 0.014094
5   1.6263e-02      4   0.81085 0.82534 0.014101
6   1.2262e-02      5   0.79459 0.81128 0.014014
7   8.8741e-03      6   0.78233 0.79146 0.013765
8   8.0630e-03      8   0.76458 0.77939 0.013675
9   7.1858e-03      9   0.75651 0.76683 0.013592
10  6.3950e-03     10   0.74933 0.76073 0.013523
11  6.2451e-03     11   0.74293 0.75769 0.013517
12  5.6749e-03     12   0.73669 0.75479 0.013511
13  5.4084e-03     13   0.73101 0.74802 0.013383
14  4.4323e-03     14   0.72561 0.74151 0.013300
15  3.3961e-03     15   0.72117 0.74156 0.013360

Теперь у меня есть несколько вопросов:

Во-первых, является ли L (T) в функции C (T) индексом Джини?Ошибка rel и x error - это ошибка тренировки и тестового теста, верно?Но какова формула для этой ошибки?Это скорость ошибочной классификации или значение индекса Джини?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...