Добавьте Dropout к каждому слою с вероятностью выпадения 0,5.Посмотрите, как она влияет на ошибку проверки, и если ваша ошибка обучения не пойдет глубже определенной точки, либо уменьшите вероятность до .3, либо последовательно удалите ее из первых слоев.Здесь немного проб и ошибок.
Полагаю, вы имеете в виду регуляризацию L2 (снижение веса) с помощью lamda.В настоящее время сети обычно используют отсев и очень маленький L2, например 0,0005.L2 приводит к тому, что веса приближаются к нулю и предотвращают их взрыв.Dropout - лучший регулятор, потому что он случайным образом отбрасывает узлы во время обучения, что вызывает какую-то специализацию.
Удачи.