У меня есть тренировочный набор, который я использую для построения некоторых моделей машинного обучения, и мне нужно настроить некоторый код для прогнозирования на тестовом наборе (к которому у меня нет доступа).
Например, если у меня есть DataFrame, train
:
car
0 Audi
1 BMW
2 Mazda
Я могу использовать pd.get_dummies
, чтобы получить:
car_Audi car_BMW car_Mazda
0 1 0 0
1 0 1 0
2 0 0 1
Вызовите этот результирующий фрейм данных, train_encoded
Теперь предположим, что мой test
DataFrame выглядит так:
car
0 Mercedes
Я могу использовать:
pd.get_dummies(test).reindex(columns=train_encoded.columns)
чтобы получить:
car_Audi car_BMW car_Mazda
0 0 0 0
Как я могу рассматривать NaN
s как невидимое значение для моего car
столбца? То есть, если я столкнусь с NaN
в моем столбце car
в test
, я хочу вернуться:
car_Audi car_BMW car_Mazda
0 0 0 0
Спасибо!