Я очень смущен тем, почему мы должны сохранять значение ожидаемого результата при выполнении регуляризации отсева. Почему это важно, если среднее значение выходных данных layer l отличается на этапе обучения и тестирования? Веса, которые не равны нулю после отсева, являются лишь немного масштабированным значением самого себя, как это влияет на способность нейронной сети принимать решения?
Согласно комментарию под этим вопросом, он говорит, что сигмоид выходного слоя может интерпретировать значение как 0 вместо 1, если не масштабируется. Но сброшенные веса в любом случае не влияют.
Пожалуйста, пролите немного света, я не могу видеть общую картину концепции.