В статье оптимизатора Адама автор утверждает в разделе 2.1, что эффективный размер шага имеет две верхние границы: ?⋅ (1 − ?1) / 1 − ?2‾‾‾‾‾‾√ в случае 1−>1> 1 − ?2‾‾‾‾‾‾√ и ? в остальном. Итак, вопрос в том, как мы можем это доказать? https://math.stackexchange.com/questions/3325577/the-upper-bound-of-the-effective-stepsize-of-the-adam-optimizer