Как выбрать кластер kMean как новый Dataframe в Spark - PullRequest
0 голосов
/ 15 сентября 2018

У меня есть фрейм данных с несколькими миллионами записей, я использовал кластеризацию k-Means и обнаружил, что конкретный кластер имеет очень разные центры от остальных.Это очень интересно.

Как выбрать записи, которые принадлежат этому кластеру, для дальнейшего их изучения?Можем ли мы выбрать кластеры, поскольку каждый из них является собственным датафреймом?

1 Ответ

0 голосов
/ 16 сентября 2018

Используете ли вы Spark ML или Spark MLLib? См. Пример из https://spark.apache.org/docs/latest/ml-clustering.html#k-means - predictions объект содержит то, что вы ищете.

...