Когда вы удаляете слой, ваша модель будет иметь меньше шансов переобучить обучающий набор. Следовательно, делая сеть более мелкой, вы делаете свою модель более устойчивой к неизвестным примерам, и точность проверки увеличивается.
Взрывающиеся или исчезающие градиенты. Вы можете попробовать решить эту проблему с помощью осторожного
weight initialization
, правильного
regularization
, добавления
shortcuts
или
gradient clipping
. Вы не тренируетесь в течение достаточного количества эпох, чтобы изучить более глубокую сеть. Вы можете попробовать еще несколько эпох. У вас недостаточно данных для обучения более глубокой сети.