Из курса глубокого обучения Эндрю Нг
SGD с момемтумом. В деталях реализации профессор упоминается как ниже
v(dw) = beta * v(dw) + (1-beta)dw
v(db) = beta * v(db) + (1-beta)db
W = W - alpha * v(dw)
b = b - alpha * v(db)
другая формула
v(dw) = beta * v(dw) + dw
v(db) = beta * v(db) + db
W = W - alpha * v(dw)
b = b - alpha * v(db)
И чистый эффект от использования этой версии секунды в том, что vdW заканчивается
масштабируется с коэффициентом 1 минус бета, или действительно 1 за 1 минус бета.
И поэтому, когда вы выполняете эти обновления градиентного спуска, альфа просто нуждается
изменить на соответствующее значение 1 за 1 минус бета.
На практике оба из них будут работать просто отлично, это просто влияет на то, что является лучшей ценностью обучения
Оценить альфа. Но я считаю, что эта конкретная формулировка немного менее интуитивна.
Потому что одним из последствий этого является то, что если вы в конечном итоге настроить гиперпараметр бета,
тогда это также влияет на масштабирование vdW и vdb. И поэтому вам в конечном итоге нужно перенастроить
скорость обучения, альфа, ну, может быть.
Вопрос: Что означает профессор, если мы настроим гиперпараметр бета, который будет влиять на dw и db. Насколько я понимаю, что в более ранней версии слишком бета параметр эффектов dw и db? Пожалуйста, уточните.
Еще один вопрос, что профессор имеет в виду, что вам также необходимо вернуться к повышению скорости обучения?
Пожалуйста, помогите.