Мысли о быстрой сводке данных - PullRequest
0 голосов
/ 15 февраля 2020

Я пытаюсь объединить два набора данных:

1-merged_dataset_V3 AND 2-avg_teachers_per_region

Два набора данных объединяются правильно; Тем не менее, я хотел бы увидеть, как соотношение субсидируемых работников меняется в 15 регионах в моем комбинированном наборе данных, с помощью новой переменной: ratio_sub_teachers, которая варьируется в зависимости от региона и внутри фирмы в каждом регионе.

Но вместо того, чтобы смотреть при каждом отдельном наблюдении я хотел бы знать, что такое ratio_sub_teachers в области A, которая попадает в 50-й процентиль, по сравнению с ratio_sub_teachers в, скажем, области X, которая попадает в 50-й процентиль.

Ниже мой код:

## Merging the merged_dataset_V3 with the avg_teachers_per_region dataset, to get the ratio of subsidized teachers per school

merged_dataset_V3 = merged_dataset_V3 %>% left_join(read_xlsx("avg_teachers_per_region.xlsx"))

merged_dataset_V3 = merged_dataset_V3 %>% mutate(ratio_sub_teachers = case_when(
  avg_teachers <= number_of_teachers ~ 1,
  avg_teachers > number_of_teachers ~ (number_of_teachers/avg_teachers)
))

```{r}
## Check how the ratio of subsidized teachers per school, varies per region
quicksummary = merged_dataset_V3 %>% group_by(region) %>% filter(is.na(ratio_sub_teachers)==F) %>% summarize(p0 = quantile(ratio_sub_teachers, 0), p25 = quantile(ratio_sub_teachers, .25), p50 = quantile(ratio_sub_teachers, .50), p75 = quantile(ratio_sub_teachers, .75), p100 = quantile(ratio_sub_teachers, 1))
...