Я обучил модель двоичного классификатора (XGBoostClassifier
) и у меня есть два столбца в моем кадре данных результата: PREDICTED_COL
и TARGET_COL
. Я могу вычислить, например, areaUnderROC следующим образом:
val metrics = new BinaryClassificationMetrics(df.select(col(PREDICTED_COL), col(TARGET_COL)).rdd.map(row => (row.getDouble(0), row.getInt(1).toDouble)))
val auc = metrics.areaUnderROC()
Однако не существует соответствующего / простого способа вычисления метрики потерь журнала. Как это сделать?
Примечание : я пытался использовать org.apache.spark.mllib.tree.loss.LogLoss , но эта функция не принимает никаких параметров(например, мои PREDICTED_COL и TARGET_COL), поэтому не знаете, как его использовать.
Вот формула LogLoss: