У меня есть набор данных, содержащий следующие столбцы:
['sex', 'age', 'relationship_status]
В столбце "relations_status" есть некоторые значения NaN, и я хочу заменить их на наиболее распространенное значение в каждой группе в зависимости от возраста и пола. ,
Я знаю, как сгруппировать и посчитать значения:
df2.groupby(['age','sex'])['relationship_status'].value_counts()
, и он возвращает:
age sex relationship_status
17.0 female Married with kids 1
18.0 female In relationship 5
Married 4
Single 4
Married with kids 2
male In relationship 9
Single 5
Married 4
Married with kids 4
Divorced 3
.
.
.
86.0 female In relationship 1
92.0 male Married 1
97.0 male In relationship 1
Итак, еще раз, что мне нужно достичь, это всякий раз, когда "отношение_статус "пусто Мне нужна программа, чтобы заменить ее наиболее часто встречающимся значением, основанным на возрасте и поле.
Кто-нибудь может подсказать, как мне это сделать?
С уважением.