Почему в нейронной сети обратного распространения должна использоваться нелинейная функция активации? - PullRequest
118 голосов
/ 20 марта 2012

Я читал некоторые вещи в нейронных сетях и понимаю общий принцип однослойной нейронной сети. Я понимаю необходимость дополнительных слоев, но почему используются нелинейные функции активации?

Этот вопрос сопровождается следующим: Что является производной от функции активации, используемой для обратного распространения?

Ответы [ 11 ]

0 голосов
/ 05 ноября 2014

Это совсем не требование.Фактически, выпрямленная функция линейной активации очень полезна в больших нейронных сетях.Вычисление градиента происходит намного быстрее, и оно создает разреженность, устанавливая минимальную границу в 0.

Для получения более подробной информации см. Следующее: https://www.academia.edu/7826776/Mathematical_Intuition_for_Performance_of_Rectified_Linear_Unit_in_Deep_Neural_Networks


Редактировать:

Было некоторое обсуждение того, можно ли называть выпрямленную функцию линейной активации линейной функцией.

Да, технически это нелинейная функция, потому что она не является линейной в точке x = 0, однако все же правильно сказать, что она линейна во всех других точках, поэтому я не думаю, что этоэто полезно для придирки:

Я мог бы выбрать функцию идентификации, и она все равно была бы верной, но я выбрал ReLU в качестве примера из-за его недавней популярности.

...