Я пытаюсь провести некоторый анализ и столкнуться с препятствием (больше похоже на умственный блок) ...
Цель
У меня есть 3 различных факторных переменных:
- группа:
Analyst
, Associate
, Manager
, Sr. Manger
, Director
, ED
, VP
- Пол:
Male
, Female
- Сроки:
Mid-Year
, Year-End
, Beyond
Я хочу проверить, есть ли разница в Gender
по Cohort
и Timeframe
,То есть женщины-аналитики с большей вероятностью попадают в Timeframe = "Beyond"
, чем их коллеги-мужчины.
Код
Моя первоначальная мысль - сделать что-то вроде этого:
library(dplyr)
x <- df %>%
filter(Gender %in% c("Male","Female")) %>%
filter(!is.na("Timeframe")) %>%
group_by(Timeframe, Cohort, Gender) %>%
summarise(n = n()) %>%
mutate(freq = 100 * (n / sum(n)))
Но это дает мне проценты, которые не совсем имеют смысл.В идеале я хотел бы заключить: "В когорте аналитиков есть или нет большая разница в периоде Конец года или Полугодие или за его пределами для пола"
Данные
dput(head(df1,30))
structure(list(V1 = c("Female", "Male", "Male", "Male", "Male",
"Female", "Male", "Female", "Male", "Female", "Male", "Female",
"Male", "Female", "Female", "Female", "Male", "Female", "Female",
"Male", "Female", "Female", "Male", "Male", "Female", "Female",
"Male", "Male", "Female", "Female"), V2 = c("Executive Director",
"Executive", "Vice President", "Manager", "Director", "Executive Director",
"Manager", "Senior Manager", "Senior Manager", "Vice President",
"Director", "Senior Manager", "Manager", "Senior Manager", "Senior Manager",
"Senior Manager", "Executive Director", "Senior Manager", "Manager",
"Director", "Senior Manager", "Associate", "Vice President",
"Senior Manager", "Executive Director", "Manager", "Executive Director",
"Director", "Associate", "Senior Manager"), V3 = c("Beyond",
"Beyond", "Beyond", "Beyond", "Beyond", "Mid-Year Promotion",
"Beyond", "Year End Promotion", "Beyond", "Year End Promotion",
"Beyond", "Beyond", "Beyond", "Beyond", "Beyond", "Year End Promotion",
"Beyond", "Beyond", "Beyond", "Beyond", "Beyond", "Year End Promotion",
"Beyond", "Beyond", "Beyond", "Year End Promotion", "Beyond",
"Beyond", "Beyond", "Beyond")), row.names = c("1", "2", "4",
"5", "6", "7", "8", "10", "11", "12", "13", "14", "15", "16",
"17", "19", "21", "22", "23", "24", "25", "27", "28", "29", "30",
"31", "32", "33", "34", "35"), class = "data.frame")