У меня есть CSV-файл с 4295 записями:
,name,product,ship_from,score,shops,class
0,tom,22,0.3,0.893818566,2,0
1,jer,2,0.3,0.910212895,2,0
2,ed.,6,1,0.195939375,1,0
3,paul,16,0.3,0.56267631,2,0
4,min,3,0.3,0.01069298,1,0
Я использовал K-средства для кластеризации моих данных в 3 кластера (класс представляет соответствующий кластер).
import pandas as pd
from sklearn import datasets
from sklearn import datasets
#Load dataset
df=pd.read_csv('book4.csv')
from sklearn.model_selection import train_test_split
X=df[['product', 'ship_from', 'score', 'shops']]
y=df['class']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.7)
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3)
kmeans = kmeans.fit(X_train)
labels = kmeans.predict(X_train)
centroids = kmeans.cluster_centers_
print(labels)
print(centroids)
import matplotlib.pyplot as plt
labels.ravel()
plt.scatter(X.values[:, 0], X.values[:, 1], c=labels[:,0])
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], s=200, alpha=0.5);
Iхочу визуализировать кластеры из k средств и как мои данные разбросаны по центрам.До сих пор я не смог этого сделать.Я впервые пытаюсь визуализировать с помощью matplotlib (обычно я использую Gephi).Я получаю сообщение об ошибке:
ValueError: c of shape (1288,) not acceptable as a color sequence for x with size 4295, y with size 4295
Дело в том, что я не понимаю ошибку.Кроме того, я не уверен, правильно ли я подхожу к визуализации.Любая помощь?