Мой фрейм данных (df) состоит из смеси логических, непрерывных переменных и поля с именем wt_cnt, указывающего вес записи.
MinMaxScaler применяется к моим данным перед кластеризацией:
mms = MinMaxScaler()
mms.fit(data)
data_transformed = mms.transform(data)
И процедура KMeans выглядит следующим образом:
sum_of_squared_distances = []
K = range(1,15)
for k in K:
km = KMeans(n_clusters=k) #init model
km = km.fit(data_transformed, sample_weight=None) #fit model
sum_of_squared_distances.append(km.inertia_) #overall SSE
Но я бы хотел СОХРАНИТЬ свое начальное поле из моего первого df (wt_cnt), который обозначает вес моего кластерного анализа. Мне было трудно это сделать, потому что data_transformed - это просто матрица, а не df. Любые предложения о том, как наиболее эффективно и действенно это сделать?
Пример ниже:
data = [[2,12669,5]
,[2,7057,1]
,[2,6353,1]
,[1,13265,3]
,[2,22615,1]
,[2,9413,1]
,[2,12126,2]
,[2,7579,1]
,[1,5963,1]]
df = pd.DataFrame(data,columns=['Nm','Frsh','wt_cnt'])
mms = MinMaxScaler()
mms.fit(df)
data_transformed = mms.transform(df)
sum_of_squared_distances = []
K = range(1,5)
for k in K:
km = KMeans(n_clusters=k)
km = km.fit(data_transformed, sample_weight=None)
sum_of_squared_distances.append(km.inertia_)
plt.plot(K, sum_of_squared_distances, 'bx-')
plt.xlabel('k')
plt.ylabel('SS dists')
plt.show()