Я работаю над упражнением в Kaggle, оно посвящено их модулю для категориальных переменных, в частности, разделу «горячего кодирования»: https://www.kaggle.com/alexisbcook/categorical-variables Я в порядке во всей книге, и есть один Последняя часть, которую я пытаюсь проработать, это дополнительная часть в конце, чтобы применить однокорпусный кодер, чтобы предсказать стоимость продажи дома. Я разработал следующий код`, но в строке, выделенной жирным шрифтом: OH_cols_test = pd.DatFrame (OH_encoder.fit_transform (X_test [low_cardinality_cols]))), я получаю сообщение об ошибке, что вход содержит NaN.
Итак, мой первый вопрос: когда дело доходит до одного - горячее кодирование, не следует ли рассматривать NA просто как любую другую категорию в определенном столбце? И второй вопрос: если я хочу удалить эти NA, каков наиболее эффективный способ? Я пробовал вменение, но похоже, что это работает только для чисел? Может кто-нибудь, пожалуйста, дайте мне знать, где я иду не так здесь? Большое спасибо!
1007 *