Звучит так, как будто вы хотите восходящие кластеры. Идея состоит в том, чтобы начать с некоторых наборов синглтона
{1} {2} {3} {4} {5} {6}
Пока есть два или более комплектов, выберите ближайшую пару и замените их их объединением. Я сделаю это несколько произвольно.
{1, 2} {3} {4} {5} {6}
{1, 2} {3, 6} {4} {5}
{1, 2} {3, 4, 6} {5}
{1, 2, 5} {3, 4, 6}
{1, 2, 3, 4, 5, 6}
Иерархическая кластеризация состоит из всех наборов, которые когда-либо существовали в алгоритме. Их можно представить в виде дерева, где, если X является потомком Y, то X является подмножеством Y.
{1,2,3,4,5,6}
/ \
/ \
/ \
{1,2,5} {3,4,6}
/ \ / \
{1,2} \ {3,6} \
/ \ \ / \ \
{1} {2} {5} {3} {6} {4}
Среднее расстояние вычисляется по заданной формуле; | C1 | и | C2 | количество последовательностей в кластерах 1 и 2 соответственно. Длина последовательностей важна только при расчете расстояния Хэмминга для одной пары. Например, расстояние между кластерами {1, 2} и {3, 4, 6} составляет (d (1,3) + d (1,4) + d (1,6) + d (2,3) + D (2,4) + D (2,6)) / 6.