Глубокая нейронная сеть не учится - PullRequest
0 голосов
/ 25 апреля 2018

Я тренирую MNIST на 8 слоях (1568-784-512-256-128-64-32-10) полностью подключенной глубокой нейронной сети с новой функцией активации, как показано на рисунке ниже. Эта функция выглядит немного похож на ReLU, однако, он дает кривую мусора на "излом".

Это работало нормально, когда я использовал его для обучения 5 слоев, 6 слоев и 7 слоев полностью связанных нейронных сетей. Проблема возникает, когда я использую его в 8 слоях полностью связанных нейронных сетей. Если он будет учиться только в первые несколько эпох, то прекратит обучение (Test Loss дает «nan», а точность теста падает до 9,8%). Почему это происходит?

Мои другие конфигурации следующие: Отбрасывание = 0,5, Инициализация веса = Инициализация Ксавье, Скорость обучения = 0,1

enter image description here

enter image description here

1 Ответ

0 голосов
/ 25 апреля 2018

Я считаю, что это называется проблемой исчезновения градиента, которая обычно возникает в глубокой сети.Нет жесткого и быстрого правила для его решения.Мой совет - изменить архитектуру вашей сети

См. Здесь [ Как избежать исчезновения градиента в глубоких нейронных сетях

...