Модели машинного обучения могут потребовать от вас вменения данных в процессе очистки данных.Линейная регрессия очень заботится о yhat, поэтому я обычно начинаю с вменения среднего.Если вам неудобно вменять отсутствующие данные, вы можете отбросить наблюдения, содержащие NaN (при условии, что у вас есть только небольшая доля наблюдений NaN.)
Ввод среднего значения может выглядеть следующим образом:
df = df.fillna(df.mean())
Вменение нуля может выглядеть так:
df = df.fillna(0)
Вменение к пользовательскому результату может выглядеть следующим образом:
df = df.fillna(my_func(args))
Удаление может выглядеть примерно так:
df = df.dropna()
Предварительная подготовка, так что inf
может быть перехвачена этими методами заблаговременно, может выглядеть следующим образом:
df.replace([np.inf, -np.inf], np.nan)