У меня есть данные с двумя различными типами пропущенных значений (np.nan и None), и я пытаюсь вменять их с помощью SimpleImputer. Хотя я могу сделать это в два этапа, мне было интересно, есть ли способ объединить это в один. Мой код ниже:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
train = pd.DataFrame({
'users':[None,'John Johnson',np.nan,'John Smith','Mary Williams','ted bundy'],
})
test = pd.DataFrame({
'users':[None,np.nan,'John Smith','Mary Williams','Andy Rollins'],
})
si1 = SimpleImputer(strategy='constant',fill_value='NAN')
si2 = SimpleImputer(strategy='constant',missing_values = None, fill_value='MISSING')
train_imputed_interim1 = si1.fit_transform(train)
train_imputed = si2.fit_transform(train_imputed_interim1)
test_imputed_interim1 = si1.fit_transform(test)
test_imputed = si2.fit_transform(test_imputed_interim1)
print('\ntrain_imputed:')
print(train_imputed)
print('\ntest_imputed:')
print(test_imputed)
Есть ли способ объединить si1 и si2 в одно. Я пытался
si = SimpleImputer(strategy='constant',missing_values = [None,np.nan], fill_value='MISSING')
, но это не похоже на работу.