Как дерево решений принимается с использованием подхода перекрестной проверки? - PullRequest
2 голосов
/ 23 апреля 2019

Мне интересно знать, как создается дерево решений, когда мы используем перекрестную проверку, в учебном пособии я прочитал перекрестную проверку, пытаясь найти наилучшую точность или наименьшую частоту появления ошибок, но как именно создается дерево решений,не ясно.

Например, при К = 10, выбрать ли лучшее дерево из 10 других деревьев?

Или он пытается выбрать все лишние ребра в дереве?

Я имею в виду, я не понимаю, как именно получается окончательное дерево из 10 других деревьев.

С уважением.

Ответы [ 2 ]

1 голос
/ 23 апреля 2019

Перекрестная проверка - это не метод поиска оптимальной модели, а «получение более точной оценки эффективности прогнозирования модели».

Таким образом, он не предназначен для вывода наилучшего возможного дерева решений, но вы можете, например, оценить различные настройки гиперпараметров (приводящие к различным деревьям решений) друг против друга с более высокой статистической значимостью.

1 голос
/ 23 апреля 2019

Я полагаю, что это похожий вопрос: Помогите понять деревья перекрестной проверки и принятия решений .

Перекрестная проверка используется для получения более точной оценки любого показателя производительности, на который вы хотите обратить внимание при оценке производительности алгоритма ML. При K = 10 вы будете 10 раз переделывать алгоритм построения дерева (например, ID3) на различных разных разделах данных, где каждый раз вы тренируете модель на 9 частях и оцениваете производительность на оставшейся части (проверочный набор). Затем можно показать, что среднее из 10 наборов теперь будет менее смещенным в качестве оценки производительности.

Предположим, мы делим набор данных в наборе обучения и проверки. Ошибка в тренировочном наборе будет слишком оптимистичной, поскольку деталь может быть из-за переоснащения. Ошибка проверки будет лучше, но это отстой, что мы не можем использовать информацию из набора проверки для обучения наших моделей, особенно когда у нас ограниченная доступность данных. Вы можете рассматривать перекрестную проверку как умный способ по-прежнему использовать все доступные данные.

...