Я пытаюсь вычислить максимальное, минимальное и среднее значение для каждого столбца в панде DataFrame.Однако у меня возникают проблемы с очисткой моих столбцов.
В одном из моих столбцов вместо значения "?" Я попытался очистить, выполнив:
df = pd.read_csv("Auto.csv")
df["horsepower"].replace("?", np.nan, inplace=True) # sanitize the horsepower column
min_values = df.drop(columns=["name"]).dropna().min().to_dict()
max_values = df.drop(columns=["name"]).dropna().max().to_dict()
mean_values = df.drop(columns=["name"]).dropna().mean().to_dict()
При выполненииэто минимальное, среднее и максимальное значения неверны!Обратите внимание, что я отбрасываю столбец «имя», поскольку хочу исключить качественные данные.
Набор данных можно загрузить здесь http://www -bcf.usc.edu / ~ gareth / ISL /Auto.csv
РЕДАКТИРОВАТЬ:
Minimum values: {'mpg': 9.0, 'cylinders': 3.0, 'displacement': 68.0, 'horsepower': 100.0, 'weight': 1613.0, 'acceleration': 8.0, 'year': 70.0, 'origin': 1.0}
Maximum values: {'mpg': 46.6, 'cylinders': 8.0, 'displacement': 455.0, 'horsepower': 98.0, 'weight': 5140.0, 'acceleration': 24.8, 'year': 82.0, 'origin': 3.0}
Mean values: {'mpg': 23.44591836734694, 'cylinders': 5.471938775510204, 'displacement': 194.41198979591837, 'horsepower': inf, 'weight': 2977.5841836734694, 'acceleration': 15.541326530612228, 'year': 75.9795918367347, 'origin': 1.5765306122448979}