Как использовать переменную кластеризацию на категориальных данных (varclus) - PullRequest
0 голосов
/ 31 декабря 2018

Я пытаюсь создать иерархическое дерево кластеризации, используя пакет кластеризации переменных (varclus) в R. Обратите внимание, что я хочу кластеризовать переменные (функции), а не наблюдения из моего набора данных.Проблема в том, что у меня есть смешанный набор данных, который включает категориальные (> = 2 категории) и числовые переменные, и я не знаю, как обрабатывать кластеризацию категориальных переменных в этом случае.

Я хочу показатькаждая категориальная переменная как отдельная переменная моего дерева (как представлено в этой статье , рисунок 22).Однако, когда я выполняю varclus, он делит категориальные переменные с более чем 2 категориями на разные переменные:

Hierarchical Clustering Tree

Домен категории, например, делится на набор различныхпеременные (domainSystemSoftware, domainWebLibraries и т. д.).Вот мой текущий код:

independent.variables <- projects[,c("age", "languages", "forks", "stars", "core_contributors", "owner_type", "license", "domain", "has_readme", ``"has_contributing")]

hierarchal.tree <- varclus(~., data=independent.variables) spearman.threshold <- 0.7 plot(hierarchal.tree) abline(h=1 - spearman.threshold, col="red", lty=2)

redundant.variables <- redun(~., data=independent.variables, nk=0) print(redundant.variables) # Redundant variables (R^2 > 0.9) can be removed.

Любые предложения о том, как я могу это исправить?

Заранее спасибо.

...