Агрегирование вероятностей леса классификации в одну среднюю вероятность - почему у меня есть систематическая ошибка? - PullRequest
0 голосов
/ 29 января 2020

Представьте себе проблему классификации: кредит может дефолт (или нет). Моя целевая переменная по умолчанию (да / нет). Если я обучаю дерево или регрессию logisti c для прогнозирования вероятностей дефолта для каждого кредита, то среднее значение PD по всем кредитам в данных обучения будет таким же, как количество кредитов по умолчанию, деленное на количество всех кредитов ( что интуитивно понятно).

Однако, если я тренирую лес (состоящий из множества деревьев классификации), я теряю эту характеристику c. Я понимаю, что это не совсем то же самое из-за образцов из пакета, но разве это не должно быть достаточно близко? Прямо сейчас, если в обучающих данных по умолчанию установлено 1,3% кредитов, среднее значение прогнозов для обучающих данных log reg, а также среднее значение прогнозов одного дерева составляет 1,3%. Тем не менее, результаты по лесу более 1,4% (я тренировал лес тысячу раз, и все результаты находятся в интервале [1,37,1,43] - это не может быть следствием «случайности»).

То же самое верно, если я обучаю деревья регрессии (дерево предсказывает правильную среднюю вероятность, а лес многих деревьев регрессии - нет).

Размер узла, кажется, является параметром, который влияет на среднее предсказание много но я не понимаю почему.

У кого-нибудь есть объяснение, почему лес значительно переоценивает эту вероятность и / или почему она зависит от размера узла?

Я использую R, кстати. но я думаю, что это было бы то же самое в python.

Большое спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...