Question

У меня есть фрейм данных с несколькими миллионами записей, я использовал кластеризацию k-Means и обнаружил, что конкретный кластер имеет очень разные центры от остальных.Это очень интересно.

Как выбрать записи, которые принадлежат этому кластеру, для дальнейшего их изучения?Можем ли мы выбрать кластеры, поскольку каждый из них является собственным датафреймом?

ShirishT · Answer 1 · 16 сентября 2018

Используете ли вы Spark ML или Spark MLLib? См. Пример из https://spark.apache.org/docs/latest/ml-clustering.html#k-means - predictions объект содержит то, что вы ищете.

Как выбрать кластер kMean как новый Dataframe в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как выбрать кластер kMean как новый Dataframe в Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы