Я сравниваю разные методы кластеризации и хотел бы посмотреть, определяют ли два разных метода (или набора параметров) одинаковые кластеры или нет.Мои кластеры определяются как категориальные факторы (категориальные переменные) во фрейме данных.
Если я использую plot()
с x , являющимся категориальной переменной, и y , являющимсянепрерывная переменная Я получаю поле графика .Если я сделаю то же самое, но y , являясь другой категориальной переменной, я получу странный гистограмма (рисунок ниже).Как вы интерпретируете этого короля сюжета?
На этом сюжете x (df $ category1) имеет 13 уровней:
[1] "A" "B" "C" "D" "cluster1" "cluster5"
[7] "cluster2" "cluster8" "cluster0" "cluster6" "cluster4" "cluster3"
[13] "cluster7"
и y (df $ category2) имеет только 12 уровней:
[1] "A" "B" "C" "D" "cluster5" "cluster0"
[7] "cluster4" "cluster2" "cluster3" "cluster6" "cluster1" "cluster7"
A, B, C и Dодинаковы между двумя столбцами, остальные, если кластеры не обязательно совпадают с результатами разных запусков кластеризации.
Редактировать : использовался код plot(df$category1, df$category2)