Если я правильно понял, вы хотите вычислить метрики ML, но на кадрах данных Spark?
Вы можете просто преобразовать конечный кадр данных в rdd и использовать существующие метрические функции для rdd.
Например:
from pyspark.mllib.evaluation import BinaryClassificationMetrics
predictions = model.transform(some_data_in_dataframe)
labels_and_predictions = predictions.select("prediction","true_label").rdd
metrics = BinaryClassificationMetrics(labels_and_predictions)
print((metrics.areaUnderPR * 100))
print((metrics.areaUnderROC * 100))