как сделать kmeans на указанных c столбцах? - PullRequest
0 голосов
/ 06 января 2020

Я хотел бы сделать K-средство для определенных c столбцов моего набора данных. Так как это категориальные данные, я планирую сделать для него onehot_encoding. Теперь я хотел бы знать, возможно ли выполнить K-средних для указанных столбцов c и отобразить результаты (например, для группы) со всеми столбцами?

Например, у меня есть col1, col2 and col3 , K-означает на col2 and col3, которые закодированы в onehot_enco и показывают результаты с col1, col2 and col3. Я надеюсь, что четко выразил свою обеспокоенность

1 Ответ

3 голосов
/ 06 января 2020

Это следует за базисной c документацией kmeans:

from sklearn.cluster import KMeans
#here you select your columns
X = df[['col1', 'col2', 'col3']]
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
#this will give you the groups back
kmeans.predict(X)

Таким образом, команда прогнозирования kmeans вернет вам группу, которую вы можете добавить к исходным данным.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...