Общая идея состоит в том, чтобы рассматривать нейронную сеть как функцию весов w_ij
вместо входных данных: цель состоит в том, чтобы минимизировать ошибку между фактическими и целевыми выходами в вашем данные обучения. Для каждой (входной / выходной) обучающей пары дельта-правило определяет направление, которое необходимо настроить w_ij
, чтобы уменьшить ошибку для этой обучающей пары. Делая короткие шаги для каждой тренировочной пары, вы находите направление, которое лучше всего подходит для всего тренировочного корпуса.
Представьте, что вы находитесь в центре огромного горного горнолыжного курорта, который слишком сложен, чтобы понять все сразу, но если ваша задача - добраться до самого дна, все, что вам нужно сделать, это спуститься вниз с того места, где вы Стоим. Это называется методом градиентного спуска : найдите самый крутой путь вниз по склону от того места, где вы находитесь, и сделайте шаг в этом направлении. Достаточно шагов увидим вас внизу; для нейронной сети «дно» - это нейронная сеть, которая лучше всего подходит для ваших тренировочных данных.
Вот почему вам нужна производная: производная - это наклон , и оказывается, что ее легко вычислить - это ваше дельта-правило. Производные используются для обучения, потому что именно так они получили правило.
Для пошагового вывода правила дельты, боюсь, я не могу улучшить статью википедии , на которую вы ссылаетесь.