Модель гауссовой смеси (GMM), дающая только один кластер - PullRequest
0 голосов
/ 07 сентября 2018

У меня есть набор данных, который имеет 70 столбцов и 4,4 миллиона строк. Я хочу выполнить кластеризацию на нем. Сначала я сделал TF-IDF, затем использовал кластеризацию с помощью K-средних, биссектрирования k-средних и модели гауссовой смеси (GMM). В то время как другие методы дают мне указанное количество кластеров, GMM дает только один кластер. Например, в приведенном ниже коде я хочу 20 кластеров, но он возвращает только 1 кластер. Это происходит из-за того, что у меня много столбцов, или это просто связано с характером данных?

gmm = GaussianMixture(k = 20, tol = 0.000001, maxIter=10000, seed =1)
model = gmm.fit(rescaledData)
df1 = model.transform(rescaledData).select(['label','prediction'])
df1.groupBy('prediction').count().show()  # this returns 1 row
...