Я играю с кластеризацией иерархических документов, и фактически мой рабочий процесс примерно такой:
df = pandas.read_csv(file, delimiter='\t', index_col=0) # documents-terms matrix (very sparse)
dist_matrix = cosine_similarity(df)
linkage_matrix = ward(dist_matrix)
labels = fcluster(linkage_matrix, 5, criterion='maxclust')
Тогда я ожидаю получить 5 кластеров, но когда я строю дендрограмму
fig, ax = plt.subplots(figsize=(15, 20)) # set size
ax = dendrogram(linkage_matrix, orientation="right")
plt.tick_params( \
axis='x', # changes apply to the x-axis
which='both', # both major and minor ticks are affected
bottom='off', # ticks along the bottom edge are off
top='off', # ticks along the top edge are off
labelbottom='off')
plt.tight_layout() # show plot with tight layout
plt.savefig('ward_clusters.png', dpi=200) # save figure as ward_clusters
Я получаю следующий график
![enter image description here](https://i.stack.imgur.com/EnkSK.png)
На основе цветов я вижу 3 кластера, а не 5! Неужели я неправильно понимаю значение дендрограммы?