Почему ReLU является нелинейной функцией активации? - PullRequest
0 голосов
/ 21 сентября 2018

Насколько я понимаю, в глубокой нейронной сети мы используем функцию активации (g) после применения весов (w) и смещения (b) (z := w * X + b | a := g(z)).Таким образом, есть функция композиции (g o z), и функция активации позволяет нашей модели изучать функции, отличные от линейных функций.Я вижу, что функция активации Sigmoid и Tanh делает нашу модель нелинейной, но я испытываю некоторые затруднения, когда вижу, что ReLu (который берет максимум из 0 и z) может сделать модель нелинейной ...

Скажем, если каждый Z всегда положителен, то это было бы так, как если бы не было функции активации ...

Итак, мой вопрос здесь заключается в том, почему ReLu делает в нейронной сети модель нелинейной?

1 Ответ

0 голосов
/ 21 сентября 2018

Решение, является ли функция линейной или нет, конечно, не является вопросом мнения или спора;существует очень простое определение линейной функции, которое примерно равно:

f(a*x + b*y) = a*f(x) + b*f(y)

для каждые x & y в области функций иa & b constants.

Требование «для каждого» означает, что, если нам удастся найти хотя бы один пример, где вышеуказанное условие не выполняется, то функция будет нелинейной.

Для простоты предположим, что a = b = 1, давайте попробуем x=-5, y=1 с f, являющимся функцией ReLU:

f(-5 + 1) = f(-4) = 0
f(-5) + f(1) = 0 + 1 = 1

, поэтому для этих x & y (фактически длякаждые x & y с x*y < 0) условие f(x + y) = f(x) + f(y) не выполняется, поэтому функция является нелинейной ...

Тот факт, что мы можем найти поддоменов (например, здесь x и y являются либо отрицательными, либо положительными), где выполняется условие линейности - это то, что определяет некоторые функции (такие как ReLU) как кусочно -линейный , которые все еще являются нелинейными.

Теперь, чтобы быть справедливым к вашему вопросу, если в годПри прямом применении входные данные оказались всегда либо положительными, либо отрицательными, тогда да, в этом случае ReLU на практике будет вести себя как линейная функция.Но для нейронных сетей это не так, поэтому мы можем действительно полагаться на нее, чтобы обеспечить необходимую нелинейность ...

...