Графы Юнга: сходство вершин? - PullRequest
0 голосов
/ 03 июля 2011

У меня есть граф JUNG , содержащий около 10K вершин и 100K ребер, и я хотел бы получить меру сходства между любой парой вершин. Вершины представляют понятия (например, собака, дом и т. Д.), А ссылки представляют отношения между понятиями (например, связанные, is_a, is_part_of и т. Д.).

Вершины плотно связаны между собой, поэтому подход по кратчайшему пути не дает хороших результатов (кратчайшие пути всегда очень короткие).

Какие подходы вы бы порекомендовали для ранжирования связности между вершинами?

У JUNG есть некоторые алгоритмы для оценки важности вершин, но я не понимаю, есть ли меры сходства между двумя вершинами. SimPack кажется также многообещающим.

Есть подсказки?

1 Ответ

2 голосов
/ 03 июля 2011

Оценки centrality измеряют не сходство пар вершин, а некоторую (в зависимости от метода) центральность отдельных узлов сети в целом.Поэтому этот подход, возможно, не тот, который вам нужен.

SimPack действительно имеет хорошую цель, но для графов он реализует сравнения на основе изоморфизма, которые скорее сравнивают множество графов на сходство, чем пары узлов одногоданный график.Поэтому пока это выходит за рамки.

То, что вы ищете, это так называемые graph clustering методы (также называемые методами определения сетевого модуля или определения сетевого сообщества), которые делят график (сеть) на несколько разделов.так что узлы в каждом разделе более прочно связаны друг с другом, чем с узлами других разделов .

Наиболее классическим методом, возможно, является кластеризация между Ньюманом и Гирваном с централизованным распределением, где вы можетеиспользуйте дендрограмму для вычисления подобия, и она находится в JUNG .Конечно, в настоящее время существует множество методов.Вы можете попробовать (бесстыдный штекер) наш метод ModuLand или прочитать подробную таблицу алгоритмов обнаружения модулей в конце Электронного дополнительного материала .Это семейство методов overlapping graph clustering, то есть его результатом для каждого узла является вектор, содержащий сильные стороны принадлежности к любому соответствующему кластеру сети.Сходство парных узлов легко получить из пар этих векторов от узла к кластеру.

Кластеризация графа не тривиальна, и, возможно, вам потребуется адаптировать любой метод для получения очень точных результатов, специфичных для конкретной области, но этодо читателя;) Удачи!

...