Я хочу изучить отношения между элементами данных в большом массиве.Каждый элемент данных представлен многомерным вектором.Прежде всего, я решил использовать кластеризацию.Я заинтересован в поиске иерархических отношений между кластерами (группами векторов данных).Я могу рассчитать расстояние между моими векторами.Итак, на первом шаге я нахожу минимальное связующее дерево .После этого мне нужно сгруппировать векторы данных по ссылкам в моем связующем дереве.Но на этом этапе меня беспокоит - как объединить разные векторы в иерархические кластеры? Я использую эвристику: если два вектора связаны, а расстояние между ними очень мало - этоозначает, что они находятся в одном кластере , , если два вектора связаны, но расстояние между ними превышает пороговое значение - это означает, что они находятся в разных кластерах с общим корневым кластером .
Но, может быть, есть лучшее решение?
Спасибо
PS Спасибо всем!
На самом деле я пытался использовать k-means и некоторые варианты CLOPE, но не получил хороших результатов.
Итак, теперь я знаю, что кластеры моего набора данных на самом деле имеют сложную структуру (гораздо более сложную, чем n-сферы).
Вот почему я хочу использоватьиерархическая кластеризация.Также Я предполагаю, что кластеры выглядят как конкатенации n-размерности (например, 3D или 2D цепочка).Поэтому я использую стратегию single-link .Но меня беспокоит - как объединить разные кластеры друг с другом (, в какой ситуации мне нужно создать общий корневой кластер, и в каких ситуациях мне нужно объединить все подкластеры в один кластер?).Я использую такую простую стратегию:
- Если кластеры (или векторы) расположены слишком близко друг к другу - я объединяю их содержимое в один кластер (регулируется порогом)
- Если кластеры (или векторы) находятся слишком далеко друг от друга - я создаю корневой кластер и помещаю их в него
Но используя эту стратегию, я получаю очень большие скопления деревьев .Я пытаюсь найти удовлетворительный порог.Но, может быть, может быть лучшая стратегия для создания кластерного дерева?
Вот простая картина, описывает мой вопрос: