Question

Я экспериментирую с Tensorflow, и у меня возникает следующая проблема

Я хочу использовать итерацию

w_{t} := w_{t} - ag_{t-1}

, где t - время, a - это скорость обучения, а g(0) задано заранее. Поскольку градиент не является обучаемым весом, я не могу его просто инициализировать. Любые предложения приветствуются.

Спасибо

Hongcheng Wang · Answer 1 · 11 ноября 2019

Я не уверен, полностью ли я понимаю ваш вопрос. Почему бы не инициализировать ваш градиент (я называю это G здесь) нулевым тензором той же формы, что и w_t? Затем, если вы хотите реализовать SGD, вы можете накапливать градиент каждой выборки из случайной партии в G и, наконец, обновить свой w_t.

Таможенное обратное распространение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Таможенное обратное распространение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов