Я пытаюсь кодировать таблицу данных с несколькими столбцами для заданного набора категорий
ohe1 = OneHotEncoder(categories = [list_names_data_rest.values],dtype = 'int8')
data_rest1 = ohe1.fit_transform(data_rest.values).toarray()
Здесь list_names_data_rest.values
- массив формы (664,). У меня есть 664 уникальных функций, и я пытаюсь кодировать data_rest
, что (5050,6). После кодирования я ожидаю форму (5050,664)
Я выполняю горячее кодирование для предварительно определенного набора функций, потому что я загружаю наборы данных кусками (из-за ограничений оперативной памяти) и мне хотелось бы, чтобы форма ввода в мою нейронную сеть была согласованной
Если я использую pd.get_dummies
, в зависимости от моего набора данных, я могу получить разные категории и различную форму ввода для моего NN
ohe1.fit_transform
требует фигуры (n_values, n_features), но я не знаю, как с этим справиться.