Если быть точным, мы хотим сохранить не «ожидаемый результат», а ожидаемое значение вывода, то есть мы хотим компенсировать разницу в обучении (когда мы не передаем значения некоторых узлов)и этапы тестирования путем сохранения средних (ожидаемых) значений результатов.
В случае активаций ReLU это масштабирование действительно приводит к линейному масштабированию выходных данных (когда они положительные), но как вы думаете, почему это не влияет на окончательную точность модели классификации?По крайней мере, в конце мы обычно применяем либо softmax сигмоида, которые являются нелинейными и зависят от этого масштабирования.