Я новичок в Python и мне нужна помощь.
У меня есть датафрейм с 2 столбцами: индивидуальный идентификатор и возраст (возраст варьируется от 17 до 90 лет). Я хотел бы создать новую строковую переменную для определения возрастной группы. Как я могу определить возрастную привязанность для каждой возрастной группы, чтобы иметь примерно одинаковое количество людей в каждой группе?
df = pd.DataFrame(np.random.randint(50000,1000000,size=283772), columns=["id_indiv"])
df = df.drop_duplicates(subset=["id_indiv"])
df['age'] = np.random.randint(17,90, size=len(df))
id_indiv age New_variable
50539 17 [17 - 27)
172057 18 [17 - 27)
964467 23 [17 - 27)
634416 24 [17 - 27)
372656 25 [17 - 27)
908716 26 [17 - 27)
350488 27 [27 - 38)
486725 32 [27 - 38)
566041 48 [38 - 55)
824039 50 [38 - 55)
359122 58 [38 - 55)
262821 62 [38 - 55)
921391 65 [38 - 55)
946228 74 [38 - 55)
87924 89 [80 - 90)
Для каждой группы в New_variable существует примерно одинаковое количество различий id_indiv.
У id_indiv нет дубликатов.
Спасибо!