Я пытаюсь реализовать новую версию adagrad (https://papers.nips.cc/paper/6759-online-to-offline-conversions-universality-and-adaptive-minibatch-sizes.pdf), исследуя реализацию adagrad, я обнаружил, что она не совсем соответствует определению. Аккумулятор должен содержать норму градиента L2, но вместо этого сохраняет значение квадрата градиента в соответствии с: введите описание изображения здесь
, где Q_t - это аккумулятор, реализованный в tenorflow. Я рассматриваю некоторую оптимизацию сверточной сети, где у меня есть несколько уровней и размеры ядра.
каковы размеры параметров в соответствии с приведенным выше в CNN?
почему реализация отличается от реальной алгоритм?