Расщепление в дереве решений - PullRequest
1 голос
/ 22 апреля 2020

Если входными данными для любого узла дерева являются показанные данные, что будет лучшим разделением? Любой раскол будет иметь меньшую точность, чем точность родителей, верно? Таким образом, даже точность снижается, будем ли мы go при расщеплении?

enter image description here

1 Ответ

0 голосов
/ 23 апреля 2020

Без получения указанных c данных трудно ответить

Но моделирование похожих данных может дать приблизительное представление. Вот дерево для таких данных с max_depth из 3

enter image description here

Первый сплит берет все белые точки справа и классифицирует их.

Второй сплит берет все белые точки влево и классифицирует,.

Третий сплит пытается разделить черные точки и белые точки в середине, разделяя по ось y (X[1])

Для первого разбиения обратите внимание, что общее значение джини теперь равно 0.448*1512/2000 + 0.0 * 488/2000 =0.34<0.5. Точность после этого разделения составляет около 75%, поскольку она равна 100% из 25% данных и 66% по 75% данных.

...