Когда вы оптимизируете модель, вы определяете функцию потерь.Обычно это представляет ошибку по отношению к некоторым обучающим данным.
Обычно используется оптимизация на основе градиента, чтобы минимизировать эту ошибку.Как правило, стохастический градиентный спуск (SGD) и связанные с ним подходы (Адам, Адаград и др.).
Градиент функции потерь - это вектор, составленный из частных производных потерь по каждому весу в модели.
В каждой итерации весовые коэффициенты обновляются относительнонаправление градиента (помните, что мы минимизируем).
Я думаю, причина, по которой вы можете быть смущены, заключается в том, что из-за правила цепочки , при расчете градиента функции потерь вытребуется дифференцировать функции активации.Но имейте в виду, что это из-за цепного правила.