Возможно ли, что наш алгоритм будет сходиться к различным локальным минимумам, если мы будем использовать одни и те же данные дважды (двойная рандомизация начальных параметров)? - PullRequest
0 голосов
/ 26 апреля 2020

Предположим, что мы тренируем нейронную сеть, используя градиентный спуск, используя одни и те же данные дважды (дважды рандомизация начальных параметров). Возможно ли, что наш алгоритм будет сходиться к различным локальным минимумам?

1 Ответ

2 голосов
/ 26 апреля 2020

Да. Градиентный спуск, как следует из названия, идет «вниз» по отношению к функции потерь. Но простой спуск не означает, что вы достигнете самой низкой долины.

Рассмотрите этот пример с двумя локальными минимумами.

loss function with two local minima

Если случайно инициализированные параметры приводят к начальным выходам около A, слева от b, затем градиентный спуск будет go вниз по направлению к A. Но если исходные параметры приводят к выходам справа от b, ближе к C, то направление спуска в сторону C.

Градиентный спуск будет просто go вниз. Какой путь и где вы можете в конечном итоге, во многом зависит от того, с чего начать.

...