Другой способ вычисления (в R ) всех парных различий (расстояний) между наблюдениями в наборе данных. Исходные переменные могут быть смешанного типа. Обработка номинальных, порядковых и (а) симметричных двоичных данных достигается с помощью общего коэффициента разности Гауэра (Gower, J. C. (1971) Общий коэффициент подобия и некоторые его свойства, Biometrics 27, 857–874). Для получения дополнительной информации это на странице 47 . Если x содержит какие-либо столбцы этих типов данных, в качестве метрики будет использоваться коэффициент Гауэра.
Например
x1 <- factor(c(10, 12, 25, 14, 29))
x2 <- factor(c("oily", "dry", "dry", "dry", "oily"))
x3 <- factor(c("medium", "short", "medium", "medium", "long"))
x4 <- factor(c("active outdoor lover", "TV junky", "TV junky", "active outdoor lover", "TV junky"))
x <- cbind(x1,x2,x3,x4)
library(cluster)
daisy(x, metric = "euclidean")
вы получите:
Dissimilarities :
1 2 3 4
2 2.000000
3 3.316625 2.236068
4 2.236068 1.732051 1.414214
5 4.242641 3.741657 1.732051 2.645751
Если вас интересует метод уменьшения размерности для категориальных данных (также способ организации переменных в однородные кластеры), отметьте this