Я пытаюсь создать иерархическое дерево кластеризации, используя пакет кластеризации переменных (varclus) в R. Обратите внимание, что я хочу кластеризовать переменные (функции), а не наблюдения из моего набора данных.Проблема в том, что у меня есть смешанный набор данных, который включает категориальные (> = 2 категории) и числовые переменные, и я не знаю, как обрабатывать кластеризацию категориальных переменных в этом случае.
Я хочу показатькаждая категориальная переменная как отдельная переменная моего дерева (как представлено в этой статье , рисунок 22).Однако, когда я выполняю varclus, он делит категориальные переменные с более чем 2 категориями на разные переменные:
Домен категории, например, делится на набор различныхпеременные (domainSystemSoftware, domainWebLibraries и т. д.).Вот мой текущий код:
independent.variables <- projects[,c("age", "languages", "forks", "stars",
"core_contributors", "owner_type", "license", "domain", "has_readme", ``"has_contributing")]
hierarchal.tree <- varclus(~., data=independent.variables)
spearman.threshold <- 0.7
plot(hierarchal.tree)
abline(h=1 - spearman.threshold, col="red", lty=2)
redundant.variables <- redun(~., data=independent.variables, nk=0)
print(redundant.variables) # Redundant variables (R^2 > 0.9) can be
removed.
Любые предложения о том, как я могу это исправить?
Заранее спасибо.