Подгонка новых точек данных в существующие кластеры - PullRequest
0 голосов
/ 20 февраля 2020

Это моя первая попытка кластеризации!

У меня есть ситуация, когда мне нужно вписать мой тестовый набор данных в существующие кластеры, которые я уже построил, используя свой набор данных train, и я получил аккуратные 6 кластеров, используя метод HA C. Теперь я хочу разместить новый тестовый фрейм данных в том же методе HA C, который я использовал. Как я могу это сделать?

Мой код выглядит следующим образом:

 import scipy.cluster.hierarchy as sch
 from sklearn.cluster import AgglomerativeClustering
 import scipy.cluster.hierarchy as shc
 plt.figure(figsize =(15, 15)) 
 plt.title('Visualising the data') 
 Dendrogram = shc.dendrogram((shc.linkage(df_pca_reduced, method ='ward')))
 # import hierarchical clustering libraries

 # create clusters
 hc = AgglomerativeClustering(n_clusters=6, affinity = 'euclidean', linkage = 'ward')
 # save clusters for chart
 y_hc = hc.fit_predict(df_pca_reduced)
 hiersclus_frame = pd.DataFrame(df1)
 hiersclus_frame['cluster'] = y_hc

df_pca_reduced - это набор данных, которого я достиг после выполнения PCA.

Теперь мои кластеры хранятся в кластере столбцов в df1 .

Тестовым набором данных является "df", для которого я хочу запустить ту же функцию fit_predcit, чтобы кластеризовать этот фрейм данных, а также получить аналогичный столбец кластера в фрейме df.

Как мне этого добиться?

...