sklearn.metrics.silhouette_samples () останавливается на больших данных - PullRequest
0 голосов
/ 20 марта 2020

Я пытаюсь вычислить silhouette_samples() после выполнения KMeans только для одного столбца pandas dataframe. Вот мой пример кода:

n_clusters = 5
clusterer = KMeans(n_clusters=n_clusters)
cluster_labels = clusterer.fit_predict(df[['col']])

#compute silhouette samples
sample_silhouette_values = silhouette_samples(df[['col']], cluster_labels)

Фрейм данных имеет 731961 строк, поэтому я полагаю, что это большой объем данных. К сожалению, когда я пытаюсь выполнить команду silhouette_samples(), она останавливается (я полагаю, из-за больших требований к памяти). Можно ли выполнить указанную выше команду для данных такого размера?

Я уже пытался использовать проверенный ответ на этот вопрос , но я получаю:

MemoryError: Невозможно выделить 2,00 ТБ для массива с формой (524621, 524621) и типом данных float64

ПРИМЕЧАНИЕ : df.col содержит integer с.

...