Построение категориальной переменной против другой категориальной переменной - PullRequest
3 голосов
/ 30 января 2012

Я сравниваю разные методы кластеризации и хотел бы посмотреть, определяют ли два разных метода (или набора параметров) одинаковые кластеры или нет.Мои кластеры определяются как категориальные факторы (категориальные переменные) во фрейме данных.

Если я использую plot() с x , являющимся категориальной переменной, и y , являющимсянепрерывная переменная Я получаю поле графика .Если я сделаю то же самое, но y , являясь другой категориальной переменной, я получу странный гистограмма (рисунок ниже).Как вы интерпретируете этого короля сюжета?

plot you get when plotting a categorical variable against another categorical variable

На этом сюжете x (df $ category1) имеет 13 уровней:

[1] "A" "B" "C" "D" "cluster1" "cluster5" [7] "cluster2" "cluster8" "cluster0" "cluster6" "cluster4" "cluster3" [13] "cluster7"

и y (df $ category2) имеет только 12 уровней:

[1] "A" "B" "C" "D" "cluster5" "cluster0" [7] "cluster4" "cluster2" "cluster3" "cluster6" "cluster1" "cluster7"

A, B, C и Dодинаковы между двумя столбцами, остальные, если кластеры не обязательно совпадают с результатами разных запусков кластеризации.

Редактировать : использовался код plot(df$category1, df$category2)

Ответы [ 2 ]

4 голосов
/ 30 января 2012

Когда x и y являются обоими факторами, plot вызывает spineplot.Пример со страницы справки этой функции:

treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2),
    labels = c("placebo", "treated"))
improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)),
    levels = c(1, 2, 3),
    labels = c("none", "some", "marked"))

spineplot(improved, treatment)

Хотя это выглядит немного иначе, чем у вашего графика.

3 голосов
/ 30 января 2012

Не то, что вы просили, но попробуйте мозаику (). Будет создан график, подходящий для двух категориальных переменных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...