Если вы используете pyspark для запуска кластеризации K-Means, получить «В пределах установленной суммы квадратов ошибок» довольно просто:
#K-Means
from pyspark.ml.clustering import KMeans
ClusterData=data.select("ID","features")
#Fitting
kmeans = KMeans().setK(10).setSeed(1)
model = kmeans.fit(ClusterData)
#Evaluation
wssse = model.computeCost(ClusterData)
print("Within Set Sum of Squared Errors = " + str(wssse))
#Results
centers = model.clusterCenters()
print("Cluster Centers: ")
for center in centers:
print(center)
Информация о центре кластера является еще одним хорошим индикатором, который впоследствии может быть передан винструмент визуализации.