Рассчитать стоимость модели гауссовой смеси в Pyspark - PullRequest
0 голосов
/ 02 сентября 2018

Я хочу сравнить кластеризацию с KMeans, Bisecting KMeans и гауссовой моделью смеси (GMM) в Pyspark. Ссылка на сайт . В первых двух я могу вычислить стоимость, используя model.computeCost (набор данных). Однако GMM не имеет метода computeCost. Как мне это реализовать самому?

Вот пример с сайта:

from pyspark.ml.clustering import GaussianMixture


dataset = spark.read.format("libsvm").load("data/mllib/sample_kmeans_data.txt")

gmm = GaussianMixture().setK(2).setSeed(538009335)
model = gmm.fit(dataset)

Данные доступны здесь.

...