У меня есть набор данных от телекоммуникационной компании, имеющий множество категориальных функций. Я использовал метод pandas.get_dummies
, чтобы преобразовать их в один формат с горячим кодированием с параметром drop_first=True
. Теперь, как я могу использовать функцию предсказания, тестовые входные данные должны быть закодированы таким же образом, так как опция drop_first = True также отбрасывает некоторые столбцы, как я могу гарантировать, что кодирование происходит аналогичным образом.
Форма набора данных перед кодированием: (7043, 21)
Форма набора данных после кодирования: (7043, 31)