У меня есть данные, которые описывают предмет, проходящий процесс выпуска.Элемент имеет различные переменные, такие как «Категория продукта», «Design_country», «Линия продуктов» и так далее.Всего у меня есть 18 различных типов двоичных или категориальных данных.Эти разные переменные имеют разное измерение.Например, есть 3 разные страны дизайна и 8 разных категорий товаров.Выходные переменные - это время, необходимое элементу для прохождения процесса выпуска, который является непрерывной переменной.Я хочу предсказать, сколько времени потребуется элементу для прохождения процесса.
Design_cntry Prod_category prod_line ... time_minutes
A A1 A11 ... 43.2
B B1 A11 ... 20.1
C E1 B11 ... 15.0
... ... ... ... ....
Чтобы я мог использовать их в качестве входных данных для регрессора случайных лесов, как мне обрабатывать различные входные переменные?
Я знаю, что с помощью категориальных переменных вы можете применить одну горячую кодировку.Но делаю ли я это для каждой отдельной переменной?
X_des_country = pd.get_dummies([data['design_cntry'], prefix = "design_country")
X_prod_cat = pd.get_dummies([data['prod_cat'], prefix = "prod_cat")
Тогда у меня будет 18 разных входных кадров данных с разным количеством столбцов.Как я могу использовать эти переменные в качестве входных данных при обучении моей модели?Поместить ли я их все в один фрейм данных "X" путем слияния по индексу?
Или лучше напрямую применить одно горячее кодирование к исходному фрейму данных?
X = df.drop("time_minutes", axis = 1)
X = pd.get_dummies(X)