Я запускаю код EfficientNet от Google для своих собственных наборов данных изображений и столкнулся со следующей проблемой.Для каждого варианта архитектуры (от b0 до b7) потери на обучение и валидацию уменьшаются до +/- 100 эпох.После чего оба начинают быстро увеличиваться, в то время как точность проверки изменяется на противоположную.Я подозреваю, что это из-за переоснащения, но не уменьшится ли потеря тренировок?
Глядя на другие вопросы SO, этот подходит к тому, что я имею в виду, но я не уверен.Если это проблема исчезающего градиента, то почему люди в Google не испытали ее с данными ImageNet?
Настройка
Это было выполнено с использованием EfficientNet учебник .Мой набор данных состоит из 41 тыс. Изображений для поезда и 5 тыс. Изображений для проверки.