Эффект обрезки деревьев решений - PullRequest
3 голосов
/ 22 октября 2010

Я хочу знать, создаю ли я дерево решений A, подобное ID3, из набора обучения и проверки, но A не обрезается. В то же время у меня есть другое дерево решений B также в ID3, сгенерированное из того же набора обучения и проверки, но B сокращено. Теперь я проверяю и A, и B на будущем немаркированном тестовом наборе, всегда ли это так, что обрезанное дерево будет работать лучше? Любая идея приветствуется, спасибо.

Ответы [ 4 ]

3 голосов
/ 22 октября 2010

Я думаю, что нам нужно сделать различие более четким: обрезанные деревья всегда работают лучше на наборе validation , но не обязательно так на наборе testing (на самом деле это также равные или худшие показатели на наборе ). Я предполагаю, что сокращение сделано после того, как дерево построено (то есть: пост-сокращение) ..

Помните, что вся причина использования набора проверки состоит в том, чтобы избежать переобучения над набором обучающих данных, и ключевым моментом здесь является обобщение : нам нужна модель (дерево решений) это обобщает за пределы случаев, которые были предоставлены в «время обучения» для новых невидимых примеров.

1 голос
/ 22 октября 2010

Сокращение составляет , предполагается , чтобы улучшить классификацию путем предотвращения переоснащения. Поскольку сокращение будет происходить только в том случае, если это улучшит показатели классификации в наборе проверки, сокращенное дерево будет работать так же или лучше, чем необрезанное дерево во время проверки.

0 голосов
/ 13 апреля 2017

Я согласен с первым ответом @AMRO.Post-pruning является наиболее распространенным подходом для сокращения дерева решений, и это делается после того, как дерево построено.Но Pre-pruning также может быть сделано.в pre-pruning дерево сокращается путем раннего прекращения его строительства с использованием заданного порогового значения.Например, приняв решение не разбивать подмножество обучающих кортежей в данном узле.

Тогда этот узел становится листом.Этот лист может содержать самый частый класс среди подмножества кортежей или вероятности этих кортежей.

0 голосов
/ 22 октября 2010

Плохая обрезка может привести к неправильным результатам. Хотя часто требуется уменьшить размер дерева решений, обычно вы стремитесь к лучшим результатам при сокращении. Следовательно, как является сутью обрезки.

...