Я тренирую сверточную нейронную сеть, похожую на архитектуру lenet5, с tenorflow 2.0 на GPU GTX 980Ti. У меня есть активация Relu на всех слоях и активация softmax на последнем. Я использую оптимизатор SGD с потерей = категориальной кросс-энтропии и learning_rate = 0,1. После определенного количества эпох я получаю значения NaN для потери поезда. Кто-нибудь знает, как это решить, не меняя функций активации?