Обрезка дерева решений - PullRequest
2 голосов
/ 13 января 2012

Как обрезать сборку дерева решений с ID3, когда в обучающем наборе слишком мало примеров.

Я не могу разделить его на обучающие, проверочные и тестовые наборы, так что об этом не может быть и речи.

Существуют ли какие-либо статистические методы, которые можно использовать или что-то в этом роде?

1 Ответ

3 голосов
/ 16 июня 2012

Да, если у вас мало данных, перекрестная проверка данных может использоваться для обучения и сокращения вашего набора данных.Идея довольно проста.Вы делите свои данные на N наборов и обучаете свое дерево с N-1 из них.Последний набор, который вы используете в качестве тестового набора для обрезки.Затем вы выбираете другой набор из N наборов, чтобы пропустить, и делаете то же самое.Повторяйте это, пока не пропустите все подходы.Это означает, что вы построили N деревьев.Вы будете использовать эти N деревьев для расчета оптимального размера дерева, а затем обучаться на полном наборе данных, используя вычисления для сокращения этого дерева.Это более сложно, чем я могу эффективно описать здесь, но вот статья о том, как адаптировать перекрестную проверку к ID3.

Кросс-проверка дерева решений

Много исследований имеетБыло проведено то, что правильная сегментация перекрестной проверки, и было обнаружено, N = 10 дает лучшие результаты для данного дополнительного времени обработки.Перекрестная проверка значительно увеличивает время вычислений (ну, в N раз), но при наличии меньшего количества данных оно может преодолеть небольшое количество выборок.А поскольку у вас мало данных, это означает, что использование перекрестной проверки не так уж плохо в вычислительном отношении.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...