Question

Предположим, что мы тренируем нейронную сеть, используя градиентный спуск, используя одни и те же данные дважды (дважды рандомизация начальных параметров). Возможно ли, что наш алгоритм будет сходиться к различным локальным минимумам?

mcskinner · Answer 1 · 26 апреля 2020

Да. Градиентный спуск, как следует из названия, идет «вниз» по отношению к функции потерь. Но простой спуск не означает, что вы достигнете самой низкой долины.

Рассмотрите этот пример с двумя локальными минимумами.

Если случайно инициализированные параметры приводят к начальным выходам около A, слева от b, затем градиентный спуск будет go вниз по направлению к A. Но если исходные параметры приводят к выходам справа от b, ближе к C, то направление спуска в сторону C.

Градиентный спуск будет просто go вниз. Какой путь и где вы можете в конечном итоге, во многом зависит от того, с чего начать.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы