Вы можете легко найти математику для обратного распространения, поэтому сейчас я буду придерживаться интуиции.
Первое, что вы ошиблись, это то, что мы не пытаемся изменить X, на самом деле мыне иметь никакого контроля над X, который является входом сети.То, что мы пытаемся изменить, это W (веса).
Но почему мы умножаем дельту на градиент активации?в обратном распространении мы хотим вычислить для веса W_ij, сколько этот вес имел отношение к произведенной ошибке (dE / dW_ij), чтобы мы могли знать, как исправить каждый вес.Delta_ij - это индикатор того, насколько вклад в нейрон j (нейрон в конце W_ij) привел к ошибке.Функция активации нейрона j затем применяется к его входу, чем больше производная этой функции, тем меньше мы должны изменить вход, чтобы уменьшить ошибку.Другими словами, производная функций активации пропорциональна вкладу W_ij в полученную ошибку.
также помогает изучение математики за BP, поэтому здесь является математическим объяснением.