Scikit имеет очень полезные обертки классификатора, называемые CalibratedClassifer
и CalibratedClassifierCV
, которые пытаются удостовериться, что функция predict_proba
классификатора действительно предсказывает вероятность, а не просто произвольное число (хотя, возможно, и с хорошим рейтингом) от нуля до единицы.
Тем не менее, при использовании случайных лесов обычно используется oob_decision_function_
для определения производительности по обучающим данным, но это больше недоступно при использовании калиброванных моделей. Поэтому калибровка должна хорошо работать для новых данных, но не для данных обучения. Как мы можем оценить эффективность тренировочных данных, чтобы определить, например, переобучение?