Оценка вероятности функции h20 на тестовых данных - PullRequest
0 голосов
/ 01 марта 2019

Я создал модель случайного леса h20 для прогнозирования мошенничества. Оценивая при этом, используя функцию прогнозирования для тестовых данных.Я получил данные ниже из вывода функции предиката.

Теперь для 2-х записей он предсказал 1, но вероятность p1 намного меньше, чем p0.Какие правильные оценки вероятности (p0 / 1) и классификацию мы можем использовать для моей модели прогнозирования мошенничества?

Если это не правильные вероятности, то калиброванные вероятности, рассчитанные с использованием параметров (calibrate_model = True), как указано ниже, дадут правильныевероятность?

    nfolds=5
    rf1 = h2o.estimators.H2ORandomForestEstimator(
        model_id = "rf_df1", 
        ntrees = 200,
        max_depth = 4,
        sample_rate = .30,
       # stopping_metric="misclassification",
       # stopping_rounds = 2, 
        mtries = 6,
        min_rows = 12,
        nfolds=3,
        distribution = "multinomial",
        fold_assignment="Modulo",
        keep_cross_validation_predictions=True,
        calibrate_model = True,
        calibration_frame = calib,
        weights_column = "weight",
        balance_classes = True
      #  stopping_tolerance = .005)
       )

        predict p0          p1
    1   0   0.9986012   0.000896514
    2   1   0.9985695   0.000448676
    3   0   0.9981387   0.000477767

1 Ответ

0 голосов
/ 18 марта 2019

Метки прогноза основаны на пороге, а используемый порог, как правило, основан на пороге, который максимизирует балл F1.См. post , чтобы узнать больше о том, как интерпретировать результаты вероятности.

Подробности о том, как работает калибровочная рамка и модель здесь и здесь .

...