Что касается проблемы XOR, relu
решил исчезающий градиент, что значение ошибки обратного распространения исчезает в глубоких скрытых слоях.
Итак, Sigmoid
работает, если вы делаете только один скрытый слой.
Сигмоид имеет vlue в 0 ~ 1.
Значение ошибки при обратном распространении из выходного слоя будет очень малым значением вдали от выходного уровня по уравнению в частных производных.
Синяя линия - Релу, а Желтая линия - Сигмоид.
Relu имеет значение x, если оно больше 0.
Таким образом, значение ошибки может быть достигнуто до 1-го уровня.