Я думаю, что нам нужно сделать различие более четким: обрезанные деревья всегда работают лучше на наборе validation , но не обязательно так на наборе testing (на самом деле это также равные или худшие показатели на наборе ). Я предполагаю, что сокращение сделано после того, как дерево построено (то есть: пост-сокращение) ..
Помните, что вся причина использования набора проверки состоит в том, чтобы избежать переобучения над набором обучающих данных, и ключевым моментом здесь является обобщение : нам нужна модель (дерево решений) это обобщает за пределы случаев, которые были предоставлены в «время обучения» для новых невидимых примеров.