Как проанализировать результат t-SNE (KMeans) в Python? - PullRequest
0 голосов
/ 25 июня 2018

Я использовал t-SNE для кластеризации KMeans, но после получения t-SNE я не мог понять, как я могу связать это с моими исходными данными. Может ли кто-нибудь помочь мне понять результат, и что мне делать дальше, чтобы лучше понять результат, сравнивая мои исходные данные?

from sklearn.manifold import TSNE
fig, ax = plt.subplots(figsize = (10,8))
data = df2[['First_Policy_Year','Customer_Age','Educational_Degree','Customer_Monetary_Value','Total_Premium']].values
kmeans_clustering = KMeans( n_clusters = 3 )
idx = kmeans_clustering.fit_predict( data )

#use t-sne
X = TSNE(n_components=2, perplexity=10).fit_transform( data )

#fig = plt.figure(1)
#plt.clf()

#plot graph
colors = np.array([x for x in 'bgrcmykbgrcmykbgrcmykbgrcmyk'])
plt.scatter(X[:,0], X[:,1], c=colors[kmeans_clustering.labels_])
plt.title('K-Means (t-SNE)')
plt.show()

1 Ответ

0 голосов
/ 26 июня 2018

Этот результат tSNE выглядит случайным для меня.

Проверьте этот высоко оцененный ответ на stats.SE . На третьем изображении больше структуры, чем у вас, и показано, что это неправильная структура ...

Не переоценивайте это. В любом случае это, вероятно, неверно.

Сначала улучшите вашу предварительную обработку. 90% вашей работы будет подготовка данных.

...