Будет ли метод Ньютона классифицироваться как метод градиентного спуска? - PullRequest
0 голосов
/ 18 января 2020

Может быть довольно тривиальный вопрос, но я просто хотел быть более ясным. Из доступной литературы и обсуждения в В чем разница между градиентным спуском и градиентным спуском Ньютона? , оба метода включают вычисление производной и затем движение к минимуму. В случае простого метода градиентного спуска мы вычисляем только производную первого порядка; в методе Ньютона мы вычисляем производную второго порядка, а также гессиан, и применяем к вектору. Более того, обновление вектора в методе Ньютона / с не всегда может быть направлено в направлении (-ive) градиента.

Более того, для данной функции f (x) оба метода пытаются найти минимум, удовлетворяющий f '(x) = 0; в методе градиентного спуска целью является argmin f (x), в то время как в методе Ньютона целью является f '(x) = 0. Другое отличие - критерий остановки, который в методе градиентного спуска равен f' (x) = 0, тогда как в методе Ньютона это f (x) = 0.

Исходя из приведенных выше аргументов, было бы оправданным сказать, что метод Ньютона является (продвинутым) примером методов градиентной оптимизации? Приведенное выше обсуждение также не дает ответа на этот вопрос.

1 Ответ

1 голос
/ 18 января 2020

в методе градиентного спуска целью является argmin f (x), тогда как в методе Ньютона, целью является f '(x) = 0

Это не так обе цели f'(x)=0. С градиентным спуском, как и в методе Ньютона, у вас нет никакой информации о том, являются ли минимумы, которые вы достигли, глобальными или локальными, поэтому argmin f(x) выполняется только для очень маленькой окрестности.

Другим отличием является критерий остановки, который в методе градиентного спуска равен f '(x) = 0, тогда как в методе Ньютона это f (x) = 0

Опять же, это неверно. Оба пытаются минимизировать функцию стоимости f(x), и нет никаких гарантий, что минимальное значение для f(x) будет равно нулю. Это может быть любое произвольное значение, поэтому выбор f(x)=0 в качестве критерия остановки будет просто неверным. Хороший критерий для остановки обоих методов - посмотреть, как сильно меняется f(x) в течение нескольких последовательных итераций. Если это не изменится в течение нескольких, то вы можете заключить, что достигли плато и остановиться. В качестве альтернативы вы можете использовать критерий, такой как абсолютное значение градиента, или, если у вас есть временные ограничения, вы можете просто использовать фиксированное количество итераций.

было бы оправданным сказать, что метод Ньютона (расширенный) пример методов оптимизации на основе градиента

По определению, метод градиента смотрит в направлении градиента. Как вы знаете, метод Ньютона использует локальную кривизну для определения пути к локальному оптимуму и может вообще не следовать тому же направлению, что и градиент, поэтому просто не имеет смысла называть его градиентным.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...