Я пытаюсь кластеризовать элементы (найти похожие элементы) на основе их атрибутов.Первоначально у меня был CSV формата:
Item |Атрибут1 |Атрибут2 ..... около 200 атрибутов
Поскольку это набор атрибутов смешанного формата (INT, String ...), я решил объединить атрибуты, и теперь у меня есть:
Элемент|ConcatenatedAttributes.
Мой код кластеризации:
uniqueItem <- unique(as.character(data$ConcatenatedAttributes))
distanceMatrix <- stringdistmatrix(uniqueItem ,uniqueItem ,method = "jw")
rownames(distanceMatrix ) <- uniqueItem
hc <- hclust(as.dist(distanceMatrix ))
dfClust <- data.frame(uniqueItem , cutree(hc, k=200))
Теперь я хочу видеть, какие элементы были сгруппированы вместе, исходя из их сходства в поле ConcatenatedAttributes.Как я могу это сделать?
Итак, что-то вроде:
ClusterNumber |Item |