Я запускаю агломерационную кластеризацию на наборе данных из 130К строк (130К уникальных ключей) и 7 столбцов, каждый столбец имеет диапазон от 20 до 2000 уникальных уровней.Данные являются категориальными, в частности буквенно-цифровыми кодами.В лучшем случае их можно рассматривать как факторы.Я экспериментирую с тем, какие результаты я могу получить от пары альтернатив k-режимам, включая иерархическую кластеризацию и MCA.
У меня вопрос, есть ли какой-нибудь хороший способ визуализировать результаты до определенного уровня сдревовидная структура?
Стандартные шаги не являются проблемой:
library{cluster}
Вычислить расстояние Gower,
ptm <- proc.time()
gower.dist <- daisy(df[,colnams], metric = c("gower"))
elapsed <- proc.time() - ptm
c(elapsed[3],elapsed[3]/60)
Вычислить объект агломерационной кластеризации с расстояния Гауэра
aggl.clust.c <- hclust(gower.dist, method = "complete")
Теперь приступим к его построению.Следующая строка работает, но сюжет по-человечески нечитабелен
plot(aggl.clust.c, main = "Agglomerative, complete linkages")
В идеале то, что я ищу, должно выглядеть примерно так (ниже приведен псевдокод, который не работает в моей системе)
plot(cutree(aggl.clust.c, k=7), main = "Agglomerative, complete linkages")
Я использую версию R 3.2.3.Эта версия не может измениться (и я не думаю, что это должно иметь значение для того, что я пытаюсь сделать).
Мне было бы интересно сделать то же самое в Python, если у кого-то есть хорошие указатели.