Я хочу выполнить кластерный анализ с помощью функции pam
в R, используя daisy
для создания матрицы различий. Мои данные содержат 2 столбца (ID и болезнь). Оба являются факторами с большим количеством значений (400 и 1800 соответственно). Как создать матрицу различий, необходимую для кластеризации данных, используя pam
?
Пример кадра данных:
set.seed(1)
df <- data.frame(ID = rep(sample(c("a","b","c","d","e","f","g"),10,replace = TRUE),70),
disease = sample(c("flu","headache","pain","inflammation","depression","infection","chest pain"),100,replace = TRUE))
df <- unique(df)
Можно ли запустить функцию daisy
для этого кадра данных или мне нужно преобразовать ее в другой формат?