У меня есть фрейм данных, который выглядит примерно так:
ID category Household Income Tercile
1 unmarried couple 100,000 Middle
2 married couple 150,000 Bottom
3 single Female head of Household 90,000 Top
4 single Male Head of Household 80,000 Bottom
Я хочу создать сводную статистическую таблицу, которая показывает sd, среднее, min, max, медиану дохода домохозяйства для каждого наблюдения, сгруппированного по каждой категории И tercile.
Мне удалось создать аналогичную таблицу для одной из категорий. Это код для не состоящих в браке пар:
Сначала я отделил категорию от общего фрейма данных и удалил ненужные мне переменные:
status_unmarried <- merged_data %>%
select(-(person_id:is_college_graduate)) %>%
select(-(is_urban:is_owner_of_home)) %>%
filter(category == 'unmarried couple') %>%
group_by(hh_income, tercile_of_census_tract_income) %>%
distinct(hh_id, .keep_all = TRUE)
Затем генерируется необходимая сводная статистика:
library(dplyr)
table_one <- tableby(tercile_of_census_tract_income ~ ., data =
status_unmarried)
summary(table_one, title = "Unmarried households")
Я мог бы повторить этот процесс для оставшихся трех категорий. Тем не менее, я бы предпочел сгенерировать эту таблицу путем объединения всех категорий в один блок кода; и не нужно создавать каждую таблицу отдельно в зависимости от категории. Таблица или фрейм данных будут выглядеть примерно так
Unmarried Couple Married Couple Single Female Head Single Male Head
Bottom
Mean
Median
Min
Max
SD
Sample Size
Middle
Mean
Median
Median
Min
Max
SD
Sample Size
Top
Mean
Median
Min
Max
SD
Sample Size
Размер выборки показывает, сколько домохозяйств относится к каждой категории. Поэтому я хочу, чтобы столбцы были категориями, а каждая строка - статистикой, но далее делится на трицил. Я хочу создать фрейм данных или сводную таблицу с этими результатами.
Заранее спасибо !!