В SGD вы вычисляете градиент для партии и перемещаете параметры в направлении указанного градиента на величину, определяемую скоростью обучения lr
:
params=old_params - lr* grad
, где grad
- это градиент потерь по параметрам.
step
в тензорном потоке или аналогичных библиотеках обычно просто обозначает количество таких обновлений за эпоху. Поэтому, если у вас есть step=1000
и lr=0.5
, вы будете вызывать псевдокод выше 1000
раз с lr=0.5
в каждой эпохе.