Вам просто нужно подумать о том, что находится в вашем последнем градиенте. Последний градиент уже является взвешенным градиентом из-за члена импульса.
На первом шаге вы просто сделаете градиентный спуск. На втором шаге у вас будет градиент импульса m_grad_2 = grad_2 + 0,9 m_grad_1. На третьем шаге у вас снова будет градиент импульса m_grad_3 = grad_3 + 0,9 m_grad_2, но старый градиент состоит из члена импульса. Следовательно, 0,9 * m_grad_2 = 0,9 * (град_2 + 0,9 град_1), что составляет 0,9 град_2 + 0,81 град_1. Следовательно, влияние градиента на k-й шаг будет 0,9 ^ k. После 10 шагов воздействие будет совсем небольшим.