(Прежде всего, извините за плохой заголовок)
Скажем, у меня есть фрейм данных A=pd.get_dummies(dfA)
, и я обучаю классификатор clf
на A. Затем я получаю новый фрейм данных dfB
, которыйможет иметь некоторые уровни определенных функций, которых нет в dfA
.Мне все еще нужно B=pd.get_dummies(dfB)
, прежде чем я смогу разобрать его в clf
, но, поскольку некоторые функции находятся в B, но не в A, clf
выдаст ошибку.
Например, функция называетсяfruit
, который имеет apple,pear,orange
в A, но apple,pear, banana
в B.
Можно ли каким-либо образом использовать то же самое "фиктивное преобразование" для A на B или любым другим способом противодействия этой проблеме (конечно, удаливстроки, которые имеют уровни в B, но не в A)?