Адаград в тензорном потоке - PullRequest
0 голосов
/ 05 августа 2020

Я пытаюсь реализовать новую версию adagrad (https://papers.nips.cc/paper/6759-online-to-offline-conversions-universality-and-adaptive-minibatch-sizes.pdf), исследуя реализацию adagrad, я обнаружил, что она не совсем соответствует определению. Аккумулятор должен содержать норму градиента L2, но вместо этого сохраняет значение квадрата градиента в соответствии с: введите описание изображения здесь

, где Q_t - это аккумулятор, реализованный в tenorflow. Я рассматриваю некоторую оптимизацию сверточной сети, где у меня есть несколько уровней и размеры ядра.

каковы размеры параметров в соответствии с приведенным выше в CNN?

почему реализация отличается от реальной алгоритм?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...