Есть ли способ эффективно масштабировать фрейм данных, который частично категоричен и частично не предназначен для использования в нейронной сети? - PullRequest
0 голосов
/ 28 апреля 2020

Основой c предпосылки вопроса является в основном следующее

Допустим, у вас есть фрейм данных с закодированным столбцом (т. Е. Столбцом, представляющим внедренное слово) и другими столбцами, которые строго числа

то есть следующие

dog = 4
cat = 5
bunny = 6
...
snake = 16500

, затем вы берете этот список закодированных значений и объединяете его со списком некодированных значений, чтобы создать такой кадр данных:

Words   FurrinessFactor   SubjectiveScore   Result
 5            78992            465222          1
 4            26789            576113          2
 6            101987           497656         1.5
....
16500           0              100005        0.067

Тогда этот кадр данных будет передан в некую нейронную net для выполнения регрессии, например

i = Input(shape = (input_shape))
x = Dense(128)(i)
...
model = Model(i,x)

(Хотя нейронная net более сложна в реальной жизни, я не считаю, что это оказывает огромное влияние на топи c)

Так как данные являются категориальными в первом разделе, а не категориальными в двух других, использование StandardScaler из sklearn испортит категорический характер первый столбец С другой стороны, здесь необходимо масштабирование.

Как мне масштабировать это, чтобы сохранить категории без изменений, но при этом сделать это эффективным?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...