Без получения указанных c данных трудно ответить
Но моделирование похожих данных может дать приблизительное представление. Вот дерево для таких данных с max_depth
из 3
Первый сплит берет все белые точки справа и классифицирует их.
Второй сплит берет все белые точки влево и классифицирует,.
Третий сплит пытается разделить черные точки и белые точки в середине, разделяя по ось y (X[1]
)
Для первого разбиения обратите внимание, что общее значение джини теперь равно 0.448*1512/2000 + 0.0 * 488/2000 =0.34<0.5
. Точность после этого разделения составляет около 75%
, поскольку она равна 100%
из 25%
данных и 66%
по 75%
данных.