Как производная функции стоимости дает направление наиболее быстрого снижения стоимости? - PullRequest
0 голосов
/ 26 апреля 2020

Я изучаю спуск Gadient, чтобы найти минимум функции. Там я нашел строку кода, как показано

m1' = m1 - alpha* d/dm1 j(m0,m1) # m0,m1 are weights, j(m0,m1) is the loss function

Утверждается, что частная производная функции стоимости дает «направление самого быстрого» уменьшения стоимости. Может кто-нибудь объяснить / уточнить это?

1 Ответ

1 голос
/ 02 мая 2020

Взять кривую установки уровня. От одной кривой набора уровней к другой кривой набора уровней кратчайший путь - это перпендикулярный путь, который является направлением производной в этой точке, что может быть доказано математически. Здесь m0 и m1 - две оси (x, y) на графике, а кривая уровня обозначает те же значимые разрезы в J (m0, m1), которые находятся в направлении z. для более подробной информации о наборе уровней https://mathinsight.org/level_sets

enter image description here

Представьте себе на графике выше, что вы выбрали другое направление, отличное от направление производной, то вы получите кривую установки уровня, которая имеет более высокое значение, чем кривая оптимального набора уровня (в случае, если вы находите минимум). Или вы можете подумать, что вам нужно на go большее расстояние (чем кратчайший путь), чтобы достичь той же кривой набора уровней, которую мы ожидаем.

...