У меня есть две вещи, которые я хочу сравнить:
- Данные из вопросника, который я собрал сам.
- Распределение выборки нормы от людей, разработавших опросник.
Вот гистограмма моих данных:
ggplot(myData) +
geom_bar(mapping = aes(x = DepriSymptoms, y = ..prop.., group = 1)) +
theme_bw() +
scale_y_continuous(labels = scales::percent_format()) +
labs(y = "Participant Count",
x = "Symptoms",
title = "Depression Symptom Severity")
Гистограмма моих данных
У меня нет фактических данных из стандартной выборки я знаю только проценты:
- нет: 70%
- подозреваемых: 9%
- светлых: 15%
- средний: 4%
- серьезный: 1%
Моя цель - сгруппированная диаграмма ggplot2, которая выглядит примерно так:
Мокап сгруппированной диаграммы
Один цвет - мои данные, другой цвет - образец нормы.
Вот мой вопрос: Как лучше всего заставить ggplot2 рисовать полосы для образца нормы, поскольку у меня нет данных?
Я подумал о создании нового фрейма данных с «фальшивыми» данными с правильными процентами и с использованием двух слоев geom_bar, но теперь они друг на друга, и я не могу использовать переменную заполнения для группировки, поскольку они взяты из разных фреймов данных.
ggplot() +
geom_bar(data = myData, mapping = aes(x = DepriSymptoms, y = ..prop.., group = 1), alpha = 0.5, fill = 'blue') +
geom_bar(data = fakeData, mapping = aes(x = DepriSymptoms, y = ..prop.., group = 2), alpha = 0.5, fill = 'red') +
scale_y_continuous(labels = scales::percent_format())
Я уверен, что должен быть более элегантный wa y, чтобы сделать это.
Надеюсь, мне удалось объяснить свою ситуацию несколько понятно.