Я работаю с большим набором данных, однако для компиляции информации я бы хотел передать некоторые атрибуты в excel. Я в настоящее время не использую openpyxl. На первом листе я хочу указать общее количество пропущенных значений для каждой переменной, процент пропущенных значений и количество категорий. На втором листе я хочу поместить имя переменной, затем категории каждой переменной, количество для каждой категории,% в каждой категории, среднее значение каждой категории по отношению к целевому объекту (продолжительность пребывания) и медиана. Для первого листа, который я сделал:
d = {'Missing_Values': df.isnull().sum(), '%_Missing_Values': round(df.isnull().sum()/len(df)*100,2), 'Nr_Categories': df.nunique()}
d_statistics1 = pd.DataFrame(data=d)
Тогда я знаю, что должен сделать это:
with pd.ExcelWriter('d_statistics.xlsx') as writer:
d_statistics1.to_excel(writer, sheet_name='Sheet_name_1')
d_statistics2.to_excel(writer, sheet_name='Sheet_name_2')
Однако, в данный момент я не знаю, как сделать лист2, могу кто-нибудь, помогите мне, пожалуйста? Я приведу пример того, что я хочу, чтобы d_statistics2 выглядело бы так:
Var. Cat. Quantity % Mean(days) Median(days)
Genre F 50 25 2 1
M 150 75 3 3
Surgery Type Conven 130 65 2 2
Urgent 70 35% 4 3