Поиск подхода:
Итак, у меня есть таблица данных с матрицей переменных, измеренных для ряда выборок. Я выполнил кластерный анализ и выяснил, к какому образцу относится какой кластер. Скажем, у меня есть 4 кластера, и теперь я хочу знать, какие переменные различны для каждого кластера и какие одинаковы. По сути, я хочу увидеть, как кластерный алгоритм принял свое решение.
Какой метод здесь использовать? Я не видел много постов по этому поводу, и я подумал, что можно арендовать распределение каждой переменной среди 4 кластеров, то есть для каждой переменной, у меня может быть 4 столбчатых диаграммы. Тогда я могу иметь обзор разницы. Тем не менее, этот подход становится менее жизнеспособным, когда у меня увеличивается количество переменных и кластеров, чтобы посмотреть. В идеале существует способ создать таблицу, в которой для трех кластеров 1 и кластера 2 будут указаны первые три различных переменных: XXX, кластера 1 и кластера 3 - XXX.
Общее представление о таблице данных:
Sample_ID HC_clusterAssigned Var1 Var2 Var3 Var4 Var5 Var6 .....
S1 1 2 8 8 5 9 9
S2 1 2 8 80 5 9 9
S3 2 4 8 98 55 89 99
S4 4 6 5 9 5 9 9
S5 3 7 7 8 9 8 2
S6 2 1 8 5 5 9 4
...