в методе градиентного спуска целью является argmin f (x), тогда как в методе Ньютона, целью является f '(x) = 0
Это не так обе цели f'(x)=0
. С градиентным спуском, как и в методе Ньютона, у вас нет никакой информации о том, являются ли минимумы, которые вы достигли, глобальными или локальными, поэтому argmin f(x)
выполняется только для очень маленькой окрестности.
Другим отличием является критерий остановки, который в методе градиентного спуска равен f '(x) = 0, тогда как в методе Ньютона это f (x) = 0
Опять же, это неверно. Оба пытаются минимизировать функцию стоимости f(x)
, и нет никаких гарантий, что минимальное значение для f(x)
будет равно нулю. Это может быть любое произвольное значение, поэтому выбор f(x)=0
в качестве критерия остановки будет просто неверным. Хороший критерий для остановки обоих методов - посмотреть, как сильно меняется f(x)
в течение нескольких последовательных итераций. Если это не изменится в течение нескольких, то вы можете заключить, что достигли плато и остановиться. В качестве альтернативы вы можете использовать критерий, такой как абсолютное значение градиента, или, если у вас есть временные ограничения, вы можете просто использовать фиксированное количество итераций.
было бы оправданным сказать, что метод Ньютона (расширенный) пример методов оптимизации на основе градиента
По определению, метод градиента смотрит в направлении градиента. Как вы знаете, метод Ньютона использует локальную кривизну для определения пути к локальному оптимуму и может вообще не следовать тому же направлению, что и градиент, поэтому просто не имеет смысла называть его градиентным.