Относительно оптимизации на основе градиентного спуска для нейронных сетей - PullRequest
0 голосов
/ 03 июля 2019

Можно ли определить лучшую отправную точку для алгоритма оптимизации градиентного спуска в отношении нейронных сетей?

Например, если посмотреть на пример поверхности потерь, содержащей локальные И глобальные минимумы в ссылке ниже, становится ясно(1) что некоторые начальные точки лучше, чем другие, в том смысле, что глобальный оптимум будет достигнут быстрее, чем другие начальные точки, (2) что некоторые начальные точки вызовут снижение в LOCAL, а не GLOBAL optima и (3) что некоторыеначальные точки, вероятно, никогда не сойдутся вообще.

https://www.researchgate.net/profile/Klaus_Raizer/publication/278036660/figure/fig7/AS:294224927969287@1447160097730/Error-surface-in-the-weigth-space-for-two-weights.png

Заранее благодарен за любой вклад :)

1 Ответ

0 голосов
/ 04 июля 2019

На данный момент в теории не совсем ясно, каков наилучший способ инициализации весов нейронной сети.Как вы уже упоминали, поверхность потерь сильно невыпуклая, и в зависимости от инициализации могут происходить разные вещи.

Современные популярные и проверенные эмпирически методы инициализации включают инициализацию Glorot (http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf?hc_location=ufi) или инициализацию He (https://www.cv -foundation.org / openaccess / content_iccv_2015 / paper / He_Delving_Deep_into_ICCV_2015_paper.pdf), которые направлены на стабилизацию тренировочного процесса.

Существуют некоторые новые теоретические гарантии хорошего поведения сети с определенной случайной инициализацией: https://arxiv.org/abs/1901.03611

Немного касанияБолее подробно по вашему вопросу, недавно было показано, что для некоторых сетей, если они обучаются через SGD, они будут сходиться к ближайшему глобальному оптимуму поверхности потерь: https://arxiv.org/abs/1902.04674

В заключение, нетобщепринятый ответ, что является лучшей инициализацией для глубоких нейронных сетей, однако есть эмпирически подтвержденные «хорошие» инициализации и в последнее время есть некоторые теоретические результаты, но в настоящее время это очень активная область исследований.

...