Многие бумаги CNN используют импульс = 0,9 при использовании Stochastic Gradient Descent в обновлении веса.Есть хорошая логика для его использования, но я ищу тщательное исследование эффектов этого параметра.Я искал во многих статьях, и кое-где есть некоторые идеи, но я не смог провести комплексное исследование.Кроме того, зависит ли его полезность от различных задач компьютерного зрения, таких как классификация, сегментация, обнаружение?