Давайте возьмем 3-слойный nn с 2 скрытыми слоями, со стандартными обозначениями nn показан ниже:
с и функцией стоимости как сумма (или средняя) квадратичных потерь по набору обучающих данных (для регрессии с непрерывным выходным значением)
с выражениями обратного распространения:
Как вы можете видеть, delta_L
- это output[i] - L
в вашей записи, предполагая, что L=y
- это ваше действительное значение выходной переменной, а a=output[i]
- это предсказание nn, это выражение совпадает с выражением Эндрю Нга конечно, обратитесь к этой статье для более подробной информации. Мы можем показать то же самое для классификации / потери при перекрестной энтропии.