Производная функции активации против частной производной по отношению к.функция потерь - PullRequest
0 голосов
/ 18 декабря 2018

Некоторые термины в ИИ сбивают меня с толку.Производная функция, используемая в обратном распространении, является производной функции активации или производной функции потерь ?

Эти термины сбивают с толку: производная действия.функция, частная производная по отношению кФункция потери ??

Я до сих пор не понимаю, правильно.

1 Ответ

0 голосов
/ 18 декабря 2018

Когда вы оптимизируете модель, вы определяете функцию потерь.Обычно это представляет ошибку по отношению к некоторым обучающим данным.

Обычно используется оптимизация на основе градиента, чтобы минимизировать эту ошибку.Как правило, стохастический градиентный спуск (SGD) и связанные с ним подходы (Адам, Адаград и др.).

Градиент функции потерь - это вектор, составленный из частных производных потерь по каждому весу в модели.

В каждой итерации весовые коэффициенты обновляются относительнонаправление градиента (помните, что мы минимизируем).

Я думаю, причина, по которой вы можете быть смущены, заключается в том, что из-за правила цепочки , при расчете градиента функции потерь вытребуется дифференцировать функции активации.Но имейте в виду, что это из-за цепного правила.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...