Как правило, вы все еще можете использовать функции активации для выходного слоя.Я часто использовал функции активации Sigmoid, чтобы подавить вывод в диапазоне 0-1, и это работало замечательно.
Одна из причин, которую вы должны учитывать при использовании ReLU, заключается в том, что они могут производить мертвые нейроны.Это означает, что при определенных обстоятельствах ваша сеть может создавать регионы, в которых сеть не будет обновляться, и выходные данные всегда равны 0.По сути, если у вас есть ReLU на выходе, у вас вообще не будет градиента, см. здесь для более подробной информации.
Если вы осторожны во время инициализации, я не понимаю, почемуне должен работать, хотя.