построение результатов иерархической кластеризации поверх матрицы данных в python - PullRequest
47 голосов
/ 06 июня 2010

Как я могу построить дендрограмму прямо поверх матрицы значений, переупорядоченной соответствующим образом для отражения кластеризации в Python? Примером является следующий рисунок:

https://publishing -cdn.elifesciences.org / 07103 / elife-07103-fig6-figsupp1-v2.jpg

Я использую scipy.cluster.dendrogram, чтобы создать свою дендрограмму и выполнить иерархическую кластеризацию на матрице данных. Как я могу затем построить данные в виде матрицы, в которой строки были переупорядочены, чтобы отразить кластеризацию, вызванную обрезкой дендрограммы при определенном пороге, и построить дендрограмму вдоль матрицы? Я знаю, как построить дендрограмму в scipy, но не знаю, как построить матрицу интенсивности данных с правой шкалой рядом с ней.

Любая помощь по этому вопросу будет принята с благодарностью.

Ответы [ 2 ]

92 голосов
/ 10 июня 2010

Вопрос не очень хорошо определяет матрица : "матрица значений", "матрица данных".Я предполагаю, что вы имеете в виду матрицу расстояний .Другими словами, элемент D_ij в симметричной неотрицательной матрице N-by-N расстояний D обозначает расстояние между двумя векторами признаков, x_i и x_j.Это правильно?

Если так, то попробуйте это (отредактировано 13 июня 2010 г., чтобы отразить две разные дендрограммы):

import scipy
import pylab
import scipy.cluster.hierarchy as sch
from scipy.spatial.distance import squareform


# Generate random features and distance matrix.
x = scipy.rand(40)
D = scipy.zeros([40,40])
for i in range(40):
    for j in range(40):
        D[i,j] = abs(x[i] - x[j])

condensedD = squareform(D)

# Compute and plot first dendrogram.
fig = pylab.figure(figsize=(8,8))
ax1 = fig.add_axes([0.09,0.1,0.2,0.6])
Y = sch.linkage(condensedD, method='centroid')
Z1 = sch.dendrogram(Y, orientation='left')
ax1.set_xticks([])
ax1.set_yticks([])

# Compute and plot second dendrogram.
ax2 = fig.add_axes([0.3,0.71,0.6,0.2])
Y = sch.linkage(condensedD, method='single')
Z2 = sch.dendrogram(Y)
ax2.set_xticks([])
ax2.set_yticks([])

# Plot distance matrix.
axmatrix = fig.add_axes([0.3,0.1,0.6,0.6])
idx1 = Z1['leaves']
idx2 = Z2['leaves']
D = D[idx1,:]
D = D[:,idx2]
im = axmatrix.matshow(D, aspect='auto', origin='lower', cmap=pylab.cm.YlGnBu)
axmatrix.set_xticks([])
axmatrix.set_yticks([])

# Plot colorbar.
axcolor = fig.add_axes([0.91,0.1,0.02,0.6])
pylab.colorbar(im, cax=axcolor)
fig.show()
fig.savefig('dendrogram.png')

Plot

Удачи!Дайте мне знать, если вам нужна дополнительная помощь.


Редактировать: Для разных цветов отрегулируйте атрибут cmap в imshow.См. scipy / matplotlib docs для примеров.На этой странице также описано, как создать собственную цветовую карту.Для удобства я рекомендую использовать существующую цветовую карту.В моем примере я использовал YlGnBu.


Редактировать: add_axes ( см. Документацию здесь ) принимает список или кортеж: (left, bottom, width, height).Например, (0.5,0,0.5,1) добавляет Axes в правой половине фигуры.(0,0.5,1,0.5) добавляет Axes к верхней половине рисунка.

Большинство людей, вероятно, используют add_subplot для удобства.Мне нравится add_axes за его контроль.

Чтобы удалить границу, используйте add_axes([left,bottom,width,height], frame_on=False). См. Пример здесь.

8 голосов
/ 13 апреля 2014

Если в дополнение к матрице и дендрограмме требуется отображать метки элементов, можно использовать следующий код, который показывает все метки, поворачивающие метки x и изменяющие размер шрифта, чтобы избежать наложения на ось x , Требуется перемещение цветовой шкалы, чтобы иметь место для меток y:

axmatrix.set_xticks(range(40))
axmatrix.set_xticklabels(idx1, minor=False)
axmatrix.xaxis.set_label_position('bottom')
axmatrix.xaxis.tick_bottom()

pylab.xticks(rotation=-90, fontsize=8)

axmatrix.set_yticks(range(40))
axmatrix.set_yticklabels(idx2, minor=False)
axmatrix.yaxis.set_label_position('right')
axmatrix.yaxis.tick_right()

axcolor = fig.add_axes([0.94,0.1,0.02,0.6])

Полученный результат таков (с картой другого цвета):

The result obtained is this:

...