Масштабирование переменных без искажения двоичных значений набора данных - PullRequest
0 голосов
/ 27 мая 2020

Я пытаюсь подготовить набор данных для обучения модели ИНС, поэтому мне нужно применить масштабирование. Однако некоторые из моих переменных являются непрерывными, а некоторые уже находятся в двоичной форме. Ниже приведен пример того, как выглядит данная строка из моего набора данных X_train:

array([[0.0, 1.0, 654, 1, 40, 5, 105683.63, 1, 1, 0, 173617.09]])

Я применил следующий код для нормализации своих значений:

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train = sc.fit_transform(X_train)

Однако это возвращает меня массив с масштабированными двоичными значениями. Есть ли способ избежать этого?

Заранее спасибо!

1 Ответ

0 голосов
/ 27 мая 2020

Вы должны использовать Pipeline с Column Transformer для смешанных типов. Вот хороший пример того, как применять различные конвейеры предварительной обработки и извлечения признаков к разным подмножествам функций.

...