Проблема, которую я не могу понять, состоит в том, что в конце у вас будет k деревьев решений, которые могут все немного отличаться, потому что они могут не разделяться одинаково, и т.д. Какое дерево вы выбираете?
Цель перекрестной проверки состоит не в том, чтобы помочь выбрать конкретный экземпляр классификатора (или дерева решений, или в любом другом приложении автоматического обучения), а скорее для квалификации модель , т. е. для предоставления таких показателей, как средний коэффициент ошибок, отклонение относительно этого среднего и т. д., которые могут быть полезны для определения уровня точности, который можно ожидать от приложения. Одной из вещей, которые может помочь перекрестная проверка, является то, достаточно ли велики тренировочные данные.
Что касается выбора конкретного дерева , вам следует вместо этого провести еще одно обучение на 100% доступных данных обучения, так как это, как правило, приведет к созданию лучшего дерева. (Недостатком подхода к перекрестной проверке является то, что нам нужно разделить [обычно небольшое] количество обучающих данных на «сгибы», и, как вы намекаете в вопросе, это может привести к деревьям, которые либо подходят, либо не подходят для конкретных экземпляров данных) .
В случае дерева решений я не уверен, к чему относится ваша ссылка на статистику, собранную в узле и использованную для удаления дерева. Может быть, конкретное использование методов перекрестной проверки? ...