Что такое хороший алгоритм кластеризации, который просто помещает два элемента данных в один кластер, если их разделение меньше некоторого определенного пользователем среза?
, т. Е. Результат X_clustering(data, distance, epsilon)
представляет собой набор назначений кластера, таких как что для любой пары i,j
они находятся в одном кластере, если distance(data[i], data[j]) < epsilon
. Если distance(data[i], data[j]) >= epsilon
, они могут быть в разных кластерах (если нет других данных, которые в итоге связывают их ...).
Другой способ указать это: i,j
находятся в одном кластере, если через данные существует путь [i, x, y, z..., j]
, так что каждый шаг имеет distance<epsilon
, и они находятся в разных кластерах, если такой путь не существует.