Question

Из курса глубокого обучения Эндрю Нг

SGD с момемтумом. В деталях реализации профессор упоминается как ниже

v(dw) = beta * v(dw) + (1-beta)dw
v(db) = beta * v(db) + (1-beta)db

W = W - alpha * v(dw)
b = b - alpha * v(db)

другая формула

v(dw) = beta * v(dw) +  dw
v(db) = beta * v(db) +  db

W = W - alpha * v(dw)
b = b - alpha * v(db)

И чистый эффект от использования этой версии секунды в том, что vdW заканчивается масштабируется с коэффициентом 1 минус бета, или действительно 1 за 1 минус бета. И поэтому, когда вы выполняете эти обновления градиентного спуска, альфа просто нуждается изменить на соответствующее значение 1 за 1 минус бета.

На практике оба из них будут работать просто отлично, это просто влияет на то, что является лучшей ценностью обучения Оценить альфа. Но я считаю, что эта конкретная формулировка немного менее интуитивна. Потому что одним из последствий этого является то, что если вы в конечном итоге настроить гиперпараметр бета, тогда это также влияет на масштабирование vdW и vdb. И поэтому вам в конечном итоге нужно перенастроить скорость обучения, альфа, ну, может быть.

Вопрос: Что означает профессор, если мы настроим гиперпараметр бета, который будет влиять на dw и db. Насколько я понимаю, что в более ранней версии слишком бета параметр эффектов dw и db? Пожалуйста, уточните.

Еще один вопрос, что профессор имеет в виду, что вам также необходимо вернуться к повышению скорости обучения?

Пожалуйста, помогите.

David Horgan · Answer 1 · 14 мая 2019

Альфа и бета являются гиперпараметрами и могут быть отрегулированы для повышения эффективности SGD.Стохастический бит в SGD означает, что данные зашумлены и разбросаны по среднему значению.Бета по существу определяет количество точек данных, усредненных по которым дается b / (1-b).Таким образом, бета-версия настроена, то есть настроена так, чтобы подгонка данных была более плавной, но не переборочной.

Альфа - это размер шага в градиентном спуске, он настраивается таким образом, чтобы функция стоимости уменьшалась на каждой итерации и находился минимум.Если альфа слишком велика, алгоритм может потерпеть неудачу, и минимум не будет найден.И наоборот, если альфа слишком мала, алгоритм будет очень медленным.Для получения более подробной информации см SGD

Список литературы:

градиентный спуск с формулой мемемтум

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

градиентный спуск с формулой мемемтум

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы