Я тренирую нейронную сеть с Keras, используя раннюю остановку. Однако при обучении сеть очень рано достигает точки, когда потери при проверке становятся неестественно низкими, которые через некоторое время сглаживаются, как это.

При использовании раннего останова с patience = 50
потери при проверке выравниваются, но никогда не опускаются ниже потери при проверке в начале.
Я обучал сеть несколько раз с одним и тем же результатом, как с rmsprop (с показателями обучения от 0,1 до 1e-4), так и с оптимизаторами adam.
Кто-нибудь знает, есть ли способ установить «период выжигания» (как в модели Марковской цепочки Монте-Карло) для сети, прежде чем контролировать потерю проверки при выборе лучшей модели?