Основой c предпосылки вопроса является в основном следующее
Допустим, у вас есть фрейм данных с закодированным столбцом (т. Е. Столбцом, представляющим внедренное слово) и другими столбцами, которые строго числа
то есть следующие
dog = 4
cat = 5
bunny = 6
...
snake = 16500
, затем вы берете этот список закодированных значений и объединяете его со списком некодированных значений, чтобы создать такой кадр данных:
Words FurrinessFactor SubjectiveScore Result
5 78992 465222 1
4 26789 576113 2
6 101987 497656 1.5
....
16500 0 100005 0.067
Тогда этот кадр данных будет передан в некую нейронную net для выполнения регрессии, например
i = Input(shape = (input_shape))
x = Dense(128)(i)
...
model = Model(i,x)
(Хотя нейронная net более сложна в реальной жизни, я не считаю, что это оказывает огромное влияние на топи c)
Так как данные являются категориальными в первом разделе, а не категориальными в двух других, использование StandardScaler из sklearn испортит категорический характер первый столбец С другой стороны, здесь необходимо масштабирование.
Как мне масштабировать это, чтобы сохранить категории без изменений, но при этом сделать это эффективным?