Я девятиклассник, который работает над нейронной сетью, которая берет 28x28 пикселей сетки (от mnist) и угадывает число.
При обратном распространении есть кое-что, чего я не понимаю. Вы подсчитываете частные производные функции стоимости по частным производным весов и смещений. Затем вы помещаете их в вектор направления, где подсчитываете толчки, которые необходимо добавить к весам, и получаете среднее из этих более 10000 изображений. И вот проблема: как вы подсчитываете эти маленькие толчки из частных производных функции стоимости по частным производным весов и смещений, чтобы найти минимум стоимости?
введите описание изображения здесь