Я пытаюсь вычислить silhouette_samples()
после выполнения KMeans
только для одного столбца pandas dataframe
. Вот мой пример кода:
n_clusters = 5
clusterer = KMeans(n_clusters=n_clusters)
cluster_labels = clusterer.fit_predict(df[['col']])
#compute silhouette samples
sample_silhouette_values = silhouette_samples(df[['col']], cluster_labels)
Фрейм данных имеет 731961 строк, поэтому я полагаю, что это большой объем данных. К сожалению, когда я пытаюсь выполнить команду silhouette_samples()
, она останавливается (я полагаю, из-за больших требований к памяти). Можно ли выполнить указанную выше команду для данных такого размера?
Я уже пытался использовать проверенный ответ на этот вопрос , но я получаю:
MemoryError: Невозможно выделить 2,00 ТБ для массива с формой (524621, 524621) и типом данных float64
ПРИМЕЧАНИЕ : df.col
содержит integer
с.