Я следую инструкциям по datacamp .
Следующий код используется для построения дерева классификации (я исключил часть кода, используемого для наблюдения данных):
library(ISLR)
require(tree)
carseats<-Carseats
High = ifelse(carseats$Sales<=8, "No", "Yes")
carseats = data.frame(carseats, High)
set.seed(101)
train=sample(1:nrow(carseats), 250)
tree.carseats = tree(High~.-Sales, carseats, subset=train)
cv.carseats = cv.tree(tree.carseats, FUN = prune.misclass)
cv.carseats
plot(cv.carseats)
В этом коде перекрестная проверка используется для удаления дерева с использованием ошибки ошибочной классификации. Последний шаг создает этот график:
Затем в учебнике говорится:
Глядя на график, вы видите нисходящую спиральную часть из-за ошибки ошибочной классификации на 250 перекрестных проверенные баллы. Итак, давайте выберем значение по шагам вниз (12). Затем, давайте обрежем дерево до размера 12, чтобы идентифицировать это дерево. Наконец, давайте построим и аннотируем это дерево, чтобы увидеть результат.
Я не совсем понимаю, как читать этот график. Откуда берется 250 и почему он выбирает дерево размером 12? Глядя на график, не должно ли быть приемлемым любое дерево между 11 и 15, или я сейчас читаю график неправильно?