R: интерпретировать кластерный анализ и идентифицировать переменные, дифференцирующие кластеры - PullRequest
0 голосов
/ 11 марта 2020

Поиск подхода:

Итак, у меня есть таблица данных с матрицей переменных, измеренных для ряда выборок. Я выполнил кластерный анализ и выяснил, к какому образцу относится какой кластер. Скажем, у меня есть 4 кластера, и теперь я хочу знать, какие переменные различны для каждого кластера и какие одинаковы. По сути, я хочу увидеть, как кластерный алгоритм принял свое решение.

Какой метод здесь использовать? Я не видел много постов по этому поводу, и я подумал, что можно арендовать распределение каждой переменной среди 4 кластеров, то есть для каждой переменной, у меня может быть 4 столбчатых диаграммы. Тогда я могу иметь обзор разницы. Тем не менее, этот подход становится менее жизнеспособным, когда у меня увеличивается количество переменных и кластеров, чтобы посмотреть. В идеале существует способ создать таблицу, в которой для трех кластеров 1 и кластера 2 будут указаны первые три различных переменных: XXX, кластера 1 и кластера 3 - XXX.

Общее представление о таблице данных:

 Sample_ID   HC_clusterAssigned  Var1   Var2  Var3  Var4  Var5  Var6  .....
  S1                1             2      8     8      5     9     9
  S2                1             2      8     80     5     9     9
  S3                2             4      8     98     55    89    99
  S4                4             6      5     9      5     9     9
  S5                3             7      7     8      9     8     2
  S6                2             1      8     5      5     9     4
  ...
...