Пусть G граф. Итак, G - это набор узлов и набор ссылок. Мне нужно найти быстрый способ разбить график. График, над которым я сейчас работаю, имеет только 120 * 160 узлов, но вскоре я могу заняться аналогичной проблемой, в другом контексте (не медицина, а разработка веб-сайтов), с миллионами узлов.
Итак, я сохранил все ссылки в матрице графиков:
M=numpy.mat(numpy.zeros((len(data.keys()),len(data.keys()))))
Теперь M держит 1 в позиции s, t, если узел s связан с узлом t. Я уверен, что M симметричен M [s, t] = M [t, s], и каждый узел связан с самим собой M [s, s] = 1.
Если я хорошо помню, если я умножу M на M, результаты - это матрица, представляющая граф, который соединяет вершины, которые достигаются через два шага.
Так что я продолжаю умножать M на себя, пока количество нулей в матрице больше не уменьшится. Теперь у меня есть список подключенных компонентов.
И теперь мне нужно кластеризовать эту матрицу.
До сих пор я довольно доволен алгоритмом. Я думаю, что это легко, элегантно и достаточно быстро. У меня проблемы с этой частью.
По сути, мне нужно разбить этот график на связанные компоненты.
Я могу пройти через все узлы и посмотреть, к чему они подключены.
Но как насчет сортировки матрицы, переупорядочивания линий? Но я не знаю, возможно ли это сделать.
Ниже приведен код:
def findzeros(M):
nZeros=0
for t in M.flat:
if not t:
nZeros+=1
return nZeros
M=numpy.mat(numpy.zeros((len(data.keys()),len(data.keys()))))
for s in data.keys():
MatrixCells[s,s]=1
for t in data.keys():
if t<s:
if (scipy.corrcoef(data[t],data[s])[0,1])>threashold:
M[s,t]=1
M[t,s]=1
nZeros=findzeros(M)
M2=M*M
nZeros2=findzeros(M2)
while (nZeros-nZeros2):
nZeros=nZeros2
M=M2
M2=M*M
nZeros2=findzeros(M2)
Edit:
Было предложено использовать разложение SVD. Вот простой пример задачи на графике 5х5. Мы будем использовать это, поскольку с квадратной матрицей 19200x19200 не так легко увидеть кластеры.
import numpy
import scipy
M=numpy.mat(numpy.zeros((5,5)))
M[1,3]=1
M[3,1]=1
M[1,1]=1
M[2,2]=1
M[3,3]=1
M[4,4]=1
M[0,0]=1
print M
u,s,vh = numpy.linalg.linalg.svd(M)
print u
print s
print vh
По существу, здесь есть 4 кластера: (0), (1,3), (2), (4)
Но я до сих пор не понимаю, как svn может помочь в этом контексте.