На данный момент в теории не совсем ясно, каков наилучший способ инициализации весов нейронной сети.Как вы уже упоминали, поверхность потерь сильно невыпуклая, и в зависимости от инициализации могут происходить разные вещи.
Современные популярные и проверенные эмпирически методы инициализации включают инициализацию Glorot (http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf?hc_location=ufi) или инициализацию He (https://www.cv -foundation.org / openaccess / content_iccv_2015 / paper / He_Delving_Deep_into_ICCV_2015_paper.pdf), которые направлены на стабилизацию тренировочного процесса.
Существуют некоторые новые теоретические гарантии хорошего поведения сети с определенной случайной инициализацией: https://arxiv.org/abs/1901.03611
Немного касанияБолее подробно по вашему вопросу, недавно было показано, что для некоторых сетей, если они обучаются через SGD, они будут сходиться к ближайшему глобальному оптимуму поверхности потерь: https://arxiv.org/abs/1902.04674
В заключение, нетобщепринятый ответ, что является лучшей инициализацией для глубоких нейронных сетей, однако есть эмпирически подтвержденные «хорошие» инициализации и в последнее время есть некоторые теоретические результаты, но в настоящее время это очень активная область исследований.