Недавно я нашел очень полезную функцию, опубликованную в Kaggle . Это обеспечивает сводку всех столбцов данных.
def resumetable(df):
print(f"Dataset Shape: {df.shape}")
summary = pd.DataFrame(df.dtypes,columns=['dtypes'])
summary = summary.reset_index()
summary['Name'] = summary['index']
summary = summary[['Name','dtypes']]
summary['Missing'] = df.isnull().sum().values
summary['Uniques'] = df.nunique().values
summary['First Value'] = df.loc[0].values
summary['Second Value'] = df.loc[1].values
summary['Third Value'] = df.loc[2].values
for name in summary['Name'].value_counts().index:
summary.loc[summary['Name'] == name, 'Entropy'] = round(stats.entropy(df[name].value_counts(normalize=True), base=2),2)
return summary
Мне нравится использовать эту функцию во ВСЕХ кодах, которые я пишу. Как я могу добиться этого без написания вышеуказанной функции во всех кодах.
Я смутно знаю, что эта функция должна быть внутри кода с расширением .py и помещена в соответствующий каталог. Но не знаю правильных деталей.