Правильный способ масштабирования данных - PullRequest
0 голосов
/ 10 сентября 2018

Я использую TensorFlow для создания простой модели DNN. Когда я тренирую свои данные, я масштабирую все данные поезда следующим образом:

X_scaler = preprocessing.StandardScaler()
X_standard = X_scaler.fit_transform(X_train)

Но когда я использую контрольную точку модели, мне нужно снова масштабировать вход. Поэтому я масштабирую один образец, например:

X_scaler = preprocessing.StandardScaler()
X_standard = X_scaler.transform(X_test)

Но масштабирование одного образца дает мне [[0.000000 0.000000 0.000000 0.000000 0.000000 ]]

Может кто-нибудь объяснить мне, что я делаю неправильно и как мне правильно масштабировать? Мои данные о поездах - это CSV-файл, который выглядит так:

[[11.000000 61.000000 134217728.000000 ... 0.000000 46596.313072
  272756.723290]
 [1.000000 87.000000 134217728.000000 ... 16.449219 13925.136928
  289477.942990]
 [16.000000 73.000000 2097152.000000 ... 19567.666016 50885.644772
  305358.707758]]

Мой единственный тестовый образец такой же, но только один элемент в массиве:

[[57.000000 14.000000 2097152.000000 5.000000 3.000000 3.000000 0.000000
  262.000000 81788928.000000 1001.000000 527593.000000 349181.000000
  182.000000 11.000000 0.349954 0.701496 95.800000 2.280000 1.790000
  13141380.000000 3166248.000000 19.420000 25.400000 100.740000
  31004.910000 2.000000 1000000000.000000 93.370000 3.030000 3.540000
  11483952.000000 3923548.000000 25.470000 40.370000 186.790000
  49280.940000 18.000000 3700000000.000000 750.371094 17519.000000
  27508.000000 18915.000000 149477.500000 2080774.000000 189943.000000
  0.000325 5.376465 350.303954 370104.379128]]
...