У меня есть данные, которые являются непрерывной переменной продолжительности программы.Я хочу иметь возможность хранить данные для активных и неактивных пользователей.Поэтому для каждого диапазона я хочу узнать количество пользователей, у которых была продолжительность программы в этом диапазоне.В конечном счете, я хочу посчитать для данного диапазона, сколько активных и неактивных пациентов имели эту продолжительность.
Я использовал метод .cut и оператор groupby.Мне удалось получить два отдельных кадра данных для активного и неактивного binned.Тем не менее, я хочу объединить кадры данных, и я получаю эту странную вложенную структуру, и у меня нет колонки для объединения этих данных.
создание активных и неактивных фреймов данных
active = temp[temp['user_status] == 'ACTIVE']
['program_duration_1'].reset_index()
inactive = temp[temp['user_status'] == 'INACTIVE']
['program_duration_1'].reset_index()
Получение подсчета для биннинга.
bins= [-100 , 0, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100,
1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000]
active= active.groupby(pd.cut(active['program_duration_1'],
bins=bins).reset_index(drop=True)).count()
inactive= inactive.groupby(pd.cut(inactive['program_duration_1'],
bins=bins).reset_index(drop=True)).count()
выходные данные этого имеют только один столбец, и хотя он показываетбункеры в виде столбца и я сбрасываю индекс.Я не могу использовать оператор слияния, потому что есть только один столбец и нет ничего общего для слияния.Я попытался переименовать столбцы, но это тоже не сработало.
Я хочу иметь возможность объединить два кадра данных, поэтому у меня для каждого бина есть количество активных и неактивных пользователей.