Возможно, вы просите что-то более конкретное, но в целом:
Вы строите дерево решений с помощью обучающего набора и оцениваете производительность этого дерева, используя набор тестов. Другими словами, в тестовых данных вы вызываете функцию, обычно называемую чем-то вроде c * lassify *, передавая недавно построенное дерево и точку данных (в вашем наборе тестов), которую вы хотите классифицировать.
Эта функция возвращает конечный (конечный) узел из вашего дерева, к которому принадлежит эта точка данных - и, предполагая, что содержимое этого листа является однородным (заполненным данными из одного класса, а не смеси), вы получаете в Суть присваивает метку класса этой точке данных. Когда вы сравниваете эту метку класса, назначенную деревом, с фактической меткой класса точки данных и повторяете ее для всех экземпляров в вашем наборе тестов, у вас есть метрика для оценки производительности вашего дерева.
Эмпирическое правило: перетасуйте свои данные, затем назначьте 90% на тренировочный набор, а остальные 10% на тестовый набор.