Понимание затрат на обрезку деревьев решений с помощью ошибки ошибочной классификации - PullRequest
0 голосов
/ 27 марта 2020

Я следую инструкциям по datacamp .

Следующий код используется для построения дерева классификации (я исключил часть кода, используемого для наблюдения данных):

library(ISLR)
require(tree)

carseats<-Carseats
High = ifelse(carseats$Sales<=8, "No", "Yes")
carseats = data.frame(carseats, High)

set.seed(101)
train=sample(1:nrow(carseats), 250)
tree.carseats = tree(High~.-Sales, carseats, subset=train)

cv.carseats = cv.tree(tree.carseats, FUN = prune.misclass)
cv.carseats
plot(cv.carseats)

В этом коде перекрестная проверка используется для удаления дерева с использованием ошибки ошибочной классификации. Последний шаг создает этот график: enter image description here Затем в учебнике говорится:

Глядя на график, вы видите нисходящую спиральную часть из-за ошибки ошибочной классификации на 250 перекрестных проверенные баллы. Итак, давайте выберем значение по шагам вниз (12). Затем, давайте обрежем дерево до размера 12, чтобы идентифицировать это дерево. Наконец, давайте построим и аннотируем это дерево, чтобы увидеть результат.

Я не совсем понимаю, как читать этот график. Откуда берется 250 и почему он выбирает дерево размером 12? Глядя на график, не должно ли быть приемлемым любое дерево между 11 и 15, или я сейчас читаю график неправильно?

...