Методы случайного классификатора леса rdd - PullRequest
0 голосов
/ 10 апреля 2019

Поиск случайных метрик классификатора леса, таких как ROC, кривая точного возврата, точность, отзыв, оценка F1 на основе Dataframe с использованием pyspark.Я мог бы получить те же метрики для объекта RDD. Может кто-нибудь, пожалуйста, помогите.

1 Ответ

0 голосов
/ 10 апреля 2019

Если я правильно понял, вы хотите вычислить метрики ML, но на кадрах данных Spark? Вы можете просто преобразовать конечный кадр данных в rdd и использовать существующие метрические функции для rdd. Например:

 from pyspark.mllib.evaluation import BinaryClassificationMetrics

 predictions = model.transform(some_data_in_dataframe)
 labels_and_predictions = predictions.select("prediction","true_label").rdd

 metrics = BinaryClassificationMetrics(labels_and_predictions)
 print((metrics.areaUnderPR * 100))
 print((metrics.areaUnderROC * 100))
...