Я тренирую MNIST на 8 слоях (1568-784-512-256-128-64-32-10) полностью подключенной глубокой нейронной сети с новой функцией активации, как показано на рисунке ниже. Эта функция выглядит немного похож на ReLU, однако, он дает кривую мусора на "излом".
Это работало нормально, когда я использовал его для обучения 5 слоев, 6 слоев и 7 слоев полностью связанных нейронных сетей. Проблема возникает, когда я использую его в 8 слоях полностью связанных нейронных сетей. Если он будет учиться только в первые несколько эпох, то прекратит обучение (Test Loss дает «nan», а точность теста падает до 9,8%). Почему это происходит?
Мои другие конфигурации следующие: Отбрасывание = 0,5, Инициализация веса = Инициализация Ксавье, Скорость обучения = 0,1