Это совсем не требование.Фактически, выпрямленная функция линейной активации очень полезна в больших нейронных сетях.Вычисление градиента происходит намного быстрее, и оно создает разреженность, устанавливая минимальную границу в 0.
Для получения более подробной информации см. Следующее: https://www.academia.edu/7826776/Mathematical_Intuition_for_Performance_of_Rectified_Linear_Unit_in_Deep_Neural_Networks
Редактировать:
Было некоторое обсуждение того, можно ли называть выпрямленную функцию линейной активации линейной функцией.
Да, технически это нелинейная функция, потому что она не является линейной в точке x = 0, однако все же правильно сказать, что она линейна во всех других точках, поэтому я не думаю, что этоэто полезно для придирки:
Я мог бы выбрать функцию идентификации, и она все равно была бы верной, но я выбрал ReLU в качестве примера из-за его недавней популярности.