Я пытаюсь объединить два набора данных:
1-merged_dataset_V3 AND 2-avg_teachers_per_region
Два набора данных объединяются правильно; Тем не менее, я хотел бы увидеть, как соотношение субсидируемых работников меняется в 15 регионах в моем комбинированном наборе данных, с помощью новой переменной: ratio_sub_teachers, которая варьируется в зависимости от региона и внутри фирмы в каждом регионе.
Но вместо того, чтобы смотреть при каждом отдельном наблюдении я хотел бы знать, что такое ratio_sub_teachers в области A, которая попадает в 50-й процентиль, по сравнению с ratio_sub_teachers в, скажем, области X, которая попадает в 50-й процентиль.
Ниже мой код:
## Merging the merged_dataset_V3 with the avg_teachers_per_region dataset, to get the ratio of subsidized teachers per school
merged_dataset_V3 = merged_dataset_V3 %>% left_join(read_xlsx("avg_teachers_per_region.xlsx"))
merged_dataset_V3 = merged_dataset_V3 %>% mutate(ratio_sub_teachers = case_when(
avg_teachers <= number_of_teachers ~ 1,
avg_teachers > number_of_teachers ~ (number_of_teachers/avg_teachers)
))
```{r}
## Check how the ratio of subsidized teachers per school, varies per region
quicksummary = merged_dataset_V3 %>% group_by(region) %>% filter(is.na(ratio_sub_teachers)==F) %>% summarize(p0 = quantile(ratio_sub_teachers, 0), p25 = quantile(ratio_sub_teachers, .25), p50 = quantile(ratio_sub_teachers, .50), p75 = quantile(ratio_sub_teachers, .75), p100 = quantile(ratio_sub_teachers, 1))