В вашем понимании есть небольшая проблема. Batch Normalization
Первоначальное намерение не состоит в том, чтобы уменьшить переоснащение, но ускорить обучение. Так же, как вы нормализуете входные данные во время передачи их на первый уровень вашей сети, пакетная нормализация выполняет это действие на внутренних (или скрытых) слоях. Нормализация партии устраняет эффект covariate shift
во время тренировки.
Но так как это применяется к каждой партии отдельно, это приводит к побочному эффекту регуляризации ваших весовых параметров. Этот регуляризирующий эффект очень похож на тот, что вы бы сделали, если бы намеревались решить проблему переторжки.
Вы можете применять оба значения batch_norm
и dropout
вместе, но рекомендуется уменьшить отсев. В настоящее время ваш показатель отсева на уровне 0,5 очень высок. Я полагаю, что выпадения от 0,1 до 0,2 должно быть достаточно, когда вы применяете его вместе с batch_norm
. Кроме того, значение dropout является гиперпараметром, поэтому на него нет фиксированного ответа, и вам, возможно, придется настроить его в соответствии с вашими данными и сетью.