Я новичок в области обработки данных, и я пытался построить график рассеяния для набора данных с 4000 строками.Я использую ноутбук Jupyter на MacBook.Я обнаружил, что в тетради Jupyter появилось более пяти минут, чтобы точечный график появился.Мой ноутбук был недавно куплен, и он оснащен процессором Intel Core i5 с частотой 2,3 ГГц и объемом памяти 8 ГБ.
У меня два вопроса: почему это заняло так много времени?почему сюжет был настолько перегружен (например, все шкалы х выглядели маленькими, они собрались вместе и не могли быть ясно прочитаны) и не очень ясно.Набор данных находится здесь: https://raw.githubusercontent.com/datascienceinc/learn-data-science/master/Introduction-to-K-means-Clustering/Data/data_1024.csv
Я действительно ценю за любые возможности.
Вот мой код:
import numpy as np
import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
%matplotlib inline
from sklearn.cluster import KMeans
df= pd.read_csv('/users/kyaw/Downloads/data_1024.csv')
df = df.join(df['Driver_ID'].str.split(expand=True))
df = df.drop(["Driver_ID"], axis=1)
df.columns=['Driver_ID','Distance_Feature','Speeding_Feature']
f1 = df['Distance_Feature'].values
f2 = df['Speeding_Feature'].values
X=np.array(list(zip(f1,f2)))
fig=plt.gcf()
fig.set_size_inches(10,8)
kmeans = KMeans(n_clusters=3).fit(X)
plt.scatter(X[:,0], X[:,1], c=kmeans.labels_, cmap='rainbow')
plt.scatter(kmeans.cluster_centers_[:,0] ,kmeans.cluster_centers_[:,1], color='black')
plt.show()