В очень глубоких нейронных сетях веса в более ранних слоях иногда не обновляются. Таким образом, по сравнению с неглубокими сетями, эти сети имеют более высокие потери. Почему веса в более ранних слоях не обновляются?