Просмотр нефункционального индекса в R / R studio - PullRequest
0 голосов
/ 22 мая 2018

Я пытаюсь кластеризовать элементы (найти похожие элементы) на основе их атрибутов.Первоначально у меня был CSV формата:

Item |Атрибут1 |Атрибут2 ..... около 200 атрибутов

Поскольку это набор атрибутов смешанного формата (INT, String ...), я решил объединить атрибуты, и теперь у меня есть:

Элемент|ConcatenatedAttributes.

Мой код кластеризации:

 uniqueItem <- unique(as.character(data$ConcatenatedAttributes))
    distanceMatrix <- stringdistmatrix(uniqueItem ,uniqueItem ,method = "jw")
    rownames(distanceMatrix ) <- uniqueItem 
    hc <- hclust(as.dist(distanceMatrix ))
    dfClust <- data.frame(uniqueItem , cutree(hc, k=200))

Теперь я хочу видеть, какие элементы были сгруппированы вместе, исходя из их сходства в поле ConcatenatedAttributes.Как я могу это сделать?

Итак, что-то вроде:

ClusterNumber |Item |

1 Ответ

0 голосов
/ 21 июня 2018

Вы хотите group_by свой фрейм данных.

Один очевидный способ - использовать цикл for.Большинство фанатов R предложат выучить dplyr.

Но ИМХО, вам идея объединить все в одно неуправляемое поле и затем злоупотребить расстоянием между строками - это просто ужасно .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...