Question

привет, я использую пример в Python AgglomerativeClustering, я пытаюсь оценить производительность, но он переключает оригинальные метки я пытаюсь сравнить предсказанные метки y_hc и оригинальную метку y, возвращаемую make blobs

import scipy.cluster.hierarchy as sch
from sklearn.cluster import AgglomerativeClustering
from sklearn.datasets import make_blobs
import numpy as np
import matplotlib.pyplot as plt
data,y = make_blobs(n_samples=300, n_features=2, centers=4, cluster_std=2, random_state=50)
plt.figure(2)
# create dendrogram
dendrogram = sch.dendrogram(sch.linkage(data, method='ward'))
plt.title('dendrogram')

# create clusters linkage="average", affinity=metric , linkage = 'ward' affinity = 'euclidean'
hc = AgglomerativeClustering(n_clusters=4, linkage="average", affinity='euclidean')

# save clusters for chart
y_hc = hc.fit_predict(data,y)

plt.figure(3)

# create scatter plot
plt.scatter(data[y==0,0], data[y==0,1], c='red', s=50)
plt.scatter(data[y==1, 0], data[y==1, 1], c='black', s=50)
plt.scatter(data[y==2, 0], data[y==2, 1], c='blue', s=50)
plt.scatter(data[y==3, 0], data[y==3, 1], c='cyan', s=50)

plt.xlim(-15,15)
plt.ylim(-15,15)


plt.scatter(data[y_hc ==0,0], data[y_hc == 0,1], s=10, c='red')
plt.scatter(data[y_hc==1,0], data[y_hc == 1,1], s=10, c='black')
plt.scatter(data[y_hc ==2,0], data[y_hc == 2,1], s=10, c='blue')
plt.scatter(data[y_hc ==3,0], data[y_hc == 3,1], s=10, c='cyan')
for ii in range(4):
        print(ii)
        i0=y_hc==ii
        counts = np.bincount(y[i0])
        valCountAtorgLbl = (np.argmax(counts))
        accuracy0Tp=100*np.max(counts)/y[y==valCountAtorgLbl].shape[0]
        accuracy0Fp = 100 * np.min(counts) / y[y ==valCountAtorgLbl].shape[0]

print([accuracy0Tp,accuracy0Fp])
plt.show()

Anony-Mousse · Answer 1 · 10 сентября 2018

При кластеризации воспроизводятся и не воспроизводятся оригинальные метки , только оригинальные разделы .

Похоже, вы предполагаете, что кластер 1 соответствует метке 1 (в faftz можно было бы пометить 'iris setosa', и, очевидно, нет способа, которым неуправляемый алгоритм придумал бы это имя кластера ...). Обычно этого не происходит - там, вероятно, не одинаковое количество кластеров и классов, и там может быть немаркированный шум. Piintsl. Вы можете использовать венгерский алгоритм для вычисления оптимального отображения (или просто жадного сопоставления), чтобы получить более Интуитивное отображение цветов.

как вычислить точность агломеративной кластеризации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как вычислить точность агломеративной кластеризации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы