Эффективное построение части иерархического кластера - PullRequest
1 голос
/ 02 июля 2019

Я запускаю агломерационную кластеризацию на наборе данных из 130К строк (130К уникальных ключей) и 7 столбцов, каждый столбец имеет диапазон от 20 до 2000 уникальных уровней.Данные являются категориальными, в частности буквенно-цифровыми кодами.В лучшем случае их можно рассматривать как факторы.Я экспериментирую с тем, какие результаты я могу получить от пары альтернатив k-режимам, включая иерархическую кластеризацию и MCA.

У меня вопрос, есть ли какой-нибудь хороший способ визуализировать результаты до определенного уровня сдревовидная структура?

Стандартные шаги не являются проблемой:

library{cluster}
  • Вычислить расстояние Gower,

    ptm <- proc.time()
    gower.dist <- daisy(df[,colnams], metric = c("gower"))
    elapsed <- proc.time() - ptm
    c(elapsed[3],elapsed[3]/60)
    
  • Вычислить объект агломерационной кластеризации с расстояния Гауэра

    aggl.clust.c <- hclust(gower.dist, method = "complete")
    

Теперь приступим к его построению.Следующая строка работает, но сюжет по-человечески нечитабелен

plot(aggl.clust.c, main = "Agglomerative, complete linkages")

В идеале то, что я ищу, должно выглядеть примерно так (ниже приведен псевдокод, который не работает в моей системе)

plot(cutree(aggl.clust.c, k=7), main = "Agglomerative, complete linkages")

Я использую версию R 3.2.3.Эта версия не может измениться (и я не думаю, что это должно иметь значение для того, что я пытаюсь сделать).

Мне было бы интересно сделать то же самое в Python, если у кого-то есть хорошие указатели.

1 Ответ

0 голосов
/ 11 июля 2019

Я нашел полезный ответ на свой вопрос о повторном построении части дерева, используя метод as.dendogram().Ссылка: http://www.sthda.com/english/wiki/beautiful-dendrogram-visualizations-in-r-5-must-known-methods-unsupervised-machine-learning

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...