Существуют ли в Deep Learning какие-либо правила или передовые практики для использования одной и той же функции активации во всех ожидаемых слоях для выходного слоя.
Например, если я использую ReLu в одном слое, есть ли какое-либо правило или наилучшая практика использования Relu во всей сети, или я могу использовать Tan или любую другую функцию активации?