Я попытался использовать данные о шахтах и породах (http://archive.ics.uci.edu/ml/datasets/connectionist+bench+(sonar,+mines+vs.+rocks)) для проведения EDA. Я поместил следующий код, который может построить график плотности для каждого числового столбца.
Есть ли способ построить одну и ту же диаграмму для каждой числовой переменной в наборе данных, но с двумя линиями на каждом графике плотности, исходя из того, является ли она M или R (последний столбец). Поэтому мы можем видеть, какая переменная показывает различное распределение для метки M против R.
import pandas as pd
# import file
file = 'https://archive.ics.uci.edu/ml/machine-learning-
databases/undocumented/connectionist-bench/sonar/sonar.all-data'
mr_df = pd.read_table(file, sep=',', header=None)
mr_df.plot(kind='density', subplots=True, layout=(8,8), sharex=False, legend=False, fontsize=1, figsize=(12,12))
plt.savefig('density plot.png')
