Когда вы масштабируете, вы обычно знаете объем ваших данных:
- для изображения, вы переходите от 0-255 к 0-1, это хорошо, вы заранее знаете диапазон
- для других функций масштабируется не равномерное распределение, а гауссово, и в этом случае вы не должны быть ограничены интервалом [0,1] для выходных данных (или [-1,1]]).
Поэтому, как правило, если вы знаете, какой выход вы хотите (вероятность или изображение), вы также знаете реальный полный диапазон, который вы можете иметь для входа.
Когда вы не знаете входной диапазон, вы обычно не хотите иметь сигмоид на выходе, потому что это ограничивает вашу сеть больше, чем вы должны.
И да, вам нужно использовать тот же конвейер предварительной обработкичто касается ваших тренировочных данных, то есть обученных параметров нормализации.