Спасибо за активную работу в это трудное время. Я хотел бы представить график гендерных различий в платежах с течением времени и хотел бы скорректировать их с учетом соотношения мужчин и женщин. Вот заголовок моего фрейма данных:
# A tibble: 3,928 x 3
# Groups: gender [2]
Date_of_Payment gender Daily_Total
<date> <chr> <dbl>
1 2013-08-01 female 23718.
2 2013-08-01 male 151540
3 2013-08-02 female 16650.
4 2013-08-02 male 31833.
5 2013-08-03 female 147.
6 2013-08-03 male 3074.
7 2013-08-04 female 186.
8 2013-08-04 male 954.
9 2013-08-05 female 28451
10 2013-08-05 male 65211.
Предполагая, что 59% получателей были мужчинами, а 41% - женщинами, как мне настроить Daily_Total, чтобы отразить это несоответствие?
Будет ли достаточно простой регулировки по относительному распределению? Пакет опроса? Спасибо за любую помощь!
**** ОБНОВЛЕНИЕ ****
Хорошо, поэтому, основываясь на обратной связи от Стефана, вот код, как он есть:
> df_gender %>%
+ group_by(Date_of_Payment, gender, .drop = FALSE) %>%
+ summarize(Daily_Total= sum(Total_Amount_of_Payment_USDollars)) %>%
+ group_by(gender) %>%
+ mutate(adjusted_total = case_when(
+ gender == "female" ~ Daily_Total / 0.41,
+ gender == "male" ~ Daily_Total / 0.59)) %>%
+ mutate(adjusted_total = adjusted_total/2)
# A tibble: 3,928 x 4
# Groups: gender [2]
Date_of_Payment gender Daily_Total adjusted_total
<date> <chr> <dbl> <dbl>
1 2013-08-01 female 23718. 28924.
2 2013-08-01 male 151540 128424.
3 2013-08-02 female 16650. 20304.
4 2013-08-02 male 31833. 26977.
5 2013-08-03 female 147. 179.
6 2013-08-03 male 3074. 2605.
7 2013-08-04 female 186. 227.
8 2013-08-04 male 954. 809.
9 2013-08-05 female 28451 34696.
10 2013-08-05 male 65211. 55263.
# … with 3,918 more rows
Я разделил на 2 в конец, чтобы вернуть цифры вниз.
Это выглядит методологически обоснованным?