Я пытаюсь найти разрыв в заработной плате между полами с учетом набора специальностей.
Вот текстовая версия моей таблицы:
gender field group logwage
0 male BUSINESS 7.229572
10 female BUSINESS 7.072464
1 male COMM/JOURN 7.108538
11 female COMM/JOURN 7.015018
2 male COMPSCI/STAT 7.340410
12 female COMPSCI/STAT 7.169401
3 male EDUCATION 6.888829
13 female EDUCATION 6.770255
4 male ENGINEERING 7.397082
14 female ENGINEERING 7.323996
5 male HUMANITIES 7.053048
15 female HUMANITIES 6.920830
6 male MEDICINE 7.319011
16 female MEDICINE 7.193518
17 female NATSCI 6.993337
7 male NATSCI 7.089232
18 female OTHER 6.881126
8 male OTHER 7.091698
9 male SOCSCI/PSYCH 7.197572
19 female SOCSCI/PSYCH 6.968322
diff не работает для меня, так как будет принимать разницу между всеми последовательными мажорами.
и вот код, как сейчас:
for row in sorted_mfield:
if sorted_mfield['field group']==sorted_mfield['field group'].shift(1):
diff= lambda x: x[0]-x[1]
Моя следующая стратегия состояла бы в том, чтобы вернуться к несортированному информационному фрейму, где мужчины и женщины были их собственными столбцами, и изменить ситуацию оттуда, но, поскольку я потратил час, пытаясь это сделать, и я довольно новичок в пандах, Я думал, что спросить и выяснить, как это работает. Спасибо.