Вам нужно будет создать подмножество dataframe
, которое вы хотите использовать.Предположим, вы хотите использовать только те строки, где df_train['Age']
не равно null
.В этом случае вы должны выбрать
df_train_to_use = df_train[df_train['Age'].isnull() == False]
Теперь вы можете перепроверить любую другую колонку, которую вы можете захотеть использовать, и иметь nulls
например
df_train['Column_name'].isnull().any()
Если это вернетTrue
, вы можете пойти дальше и заменить пустые значения значениями по умолчанию, средними значениями, нулями или любыми другими методами, которые вы предпочитаете, обычно применяемыми в программах машинного обучения.
Пример
df_train['Column_name'].dropna()
df_train['Column_name'].fillna('') #for strings
df_train['Column_name'].fillna(0) #for int
df_train['Column_name'].fillna(0.0) #for float
И т. Д.
Надеюсь, это поможет вам объяснить.