Новая переменная для возрастной группы, подходящая для дискретного равномерного распределения - PullRequest
0 голосов
/ 05 апреля 2019

Я новичок в Python и мне нужна помощь. У меня есть датафрейм с 2 столбцами: индивидуальный идентификатор и возраст (возраст варьируется от 17 до 90 лет). Я хотел бы создать новую строковую переменную для определения возрастной группы. Как я могу определить возрастную привязанность для каждой возрастной группы, чтобы иметь примерно одинаковое количество людей в каждой группе?

df = pd.DataFrame(np.random.randint(50000,1000000,size=283772), columns=["id_indiv"])
df = df.drop_duplicates(subset=["id_indiv"])
df['age'] = np.random.randint(17,90, size=len(df))

id_indiv    age New_variable
50539       17  [17 - 27)
172057      18  [17 - 27)
964467      23  [17 - 27)
634416      24  [17 - 27)
372656      25  [17 - 27)
908716      26  [17 - 27)
350488      27  [27 - 38)
486725      32  [27 - 38)
566041      48  [38 - 55)
824039      50  [38 - 55)
359122      58  [38 - 55)
262821      62  [38 - 55)
921391      65  [38 - 55)
946228      74  [38 - 55)
87924       89  [80 - 90)

Для каждой группы в New_variable существует примерно одинаковое количество различий id_indiv. У id_indiv нет дубликатов.

Спасибо!

...