Я хочу сравнить кластеризацию с KMeans, Bisecting KMeans и гауссовой моделью смеси (GMM) в Pyspark. Ссылка на сайт . В первых двух я могу вычислить стоимость, используя model.computeCost (набор данных). Однако GMM не имеет метода computeCost. Как мне это реализовать самому?
Вот пример с сайта:
from pyspark.ml.clustering import GaussianMixture
dataset = spark.read.format("libsvm").load("data/mllib/sample_kmeans_data.txt")
gmm = GaussianMixture().setK(2).setSeed(538009335)
model = gmm.fit(dataset)
Данные доступны здесь.