Question

Я тренирую MNIST на 8 слоях (1568-784-512-256-128-64-32-10) полностью подключенной глубокой нейронной сети с новой функцией активации, как показано на рисунке ниже. Эта функция выглядит немного похож на ReLU, однако, он дает кривую мусора на "излом".

Это работало нормально, когда я использовал его для обучения 5 слоев, 6 слоев и 7 слоев полностью связанных нейронных сетей. Проблема возникает, когда я использую его в 8 слоях полностью связанных нейронных сетей. Если он будет учиться только в первые несколько эпох, то прекратит обучение (Test Loss дает «nan», а точность теста падает до 9,8%). Почему это происходит?

Мои другие конфигурации следующие: Отбрасывание = 0,5, Инициализация веса = Инициализация Ксавье, Скорость обучения = 0,1

Akshay Bahadur · Answer 1 · 25 апреля 2018

Я считаю, что это называется проблемой исчезновения градиента, которая обычно возникает в глубокой сети.Нет жесткого и быстрого правила для его решения.Мой совет - изменить архитектуру вашей сети

См. Здесь [ Как избежать исчезновения градиента в глубоких нейронных сетях

Глубокая нейронная сеть не учится

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Глубокая нейронная сеть не учится

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы