У меня есть некоторые проблемы с пониманием теории функции потерь, и я надеюсь, что кто-то может мне помочь.
Обычно, когда люди пытаются объяснить вам градиентный спуск, они показывают вам функцию потерь, которая выглядит как оченьпервое изображение в этом посте градиентный спуск: все, что вам нужно знать .Я понимаю, что вся теория градиентного спуска состоит в том, чтобы корректировать веса и минимизировать функцию потерь.
Мой вопрос заключается в том, изменится ли форма функции «Потеря» во время тренировки или она останется такой же, как изображение, показанное в предыдущем посте?Я знаю, что веса - это то, что мы всегда настраиваем, поэтому параметры, которые определяют форму функции Loss, должны быть входными данными X = {x1, x2, ... xn}.Давайте сделаем простой пример: предположим, что наши входные данные [[1,2,3,4,5], [5,4,3,2,1]] и метки [1,0] (только два обучающих образца для простотыи мы устанавливаем размер пакета в 1).Тогда функция потерь должна быть примерно такой же для первой обучающей выборки
L = (1-nonlinear(1*w1+2*w2+3*w3+4*w4+5*w5+b))^2
, а для второй обучающей выборки функция потерь должна быть:
L = (0-nonlinear(5*w1+4*w2+3*w3+2*w4+1*w5+b))^2
По-видимому, эти две потерифункции не выглядят одинаково, если мы их строим, значит ли это, что форма функции Loss меняется во время тренировки?Тогда почему люди все еще используют это одно изображение (точку, которая скользит вниз от функции потерь и находит глобальные минимумы), чтобы объяснить теорию градиентного спуска?
Примечание : я неизменяя функцию потерь, функция потерь все еще является среднеквадратичной ошибкой.Я пытаюсь сказать, что форма функции Loss, похоже, меняется.
Я знаю, откуда возникла моя проблема!Я думал, что мы не можем построить такую функцию, как f (x, y) = x y без какой-либо константы, но мы на самом деле могли!Я искал график в Google для f (x, y) = x y, и мы действительно можем построить их!Итак, теперь я понимаю, что пока мы получаем потерянную функцию, мы можем получить сюжет!Спасибо, ребята