Question

Если входными данными для любого узла дерева являются показанные данные, что будет лучшим разделением? Любой раскол будет иметь меньшую точность, чем точность родителей, верно? Таким образом, даже точность снижается, будем ли мы go при расщеплении?

Shahar Bental · Answer 1 · 23 апреля 2020

Без получения указанных c данных трудно ответить

Но моделирование похожих данных может дать приблизительное представление. Вот дерево для таких данных с max_depth из 3

Первый сплит берет все белые точки справа и классифицирует их.

Второй сплит берет все белые точки влево и классифицирует,.

Третий сплит пытается разделить черные точки и белые точки в середине, разделяя по ось y (X[1])

Для первого разбиения обратите внимание, что общее значение джини теперь равно 0.448*1512/2000 + 0.0 * 488/2000 =0.34<0.5. Точность после этого разделения составляет около 75%, поскольку она равна 100% из 25% данных и 66% по 75% данных.

Расщепление в дереве решений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Расщепление в дереве решений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы