Я запускаю нейронные сети, в настоящее время в основном следую D. Учебное пособие Кризела . С самого начала он вводит как минимум три (разные?) Правила обучения (хеббианское, дельта-правило, обратное распространение) в отношении контролируемого обучения.
Я мог бы что-то упустить, но если цель состоит просто в том, чтобы минимизировать ошибку, то почему бы просто не применить градиентное снижение по Error(entire_set_of_weights)
?
Редактировать: Я должен признать, что ответы все еще смущают меня. Было бы полезно, если бы можно было указать на реальную разницу между этими методами и разницу между ними и прямым градиентным спуском.
Чтобы подчеркнуть это, эти правила обучения, похоже, учитывают многоуровневую структуру сети. С другой стороны, поиск минимума Error(W)
для всего набора весов полностью игнорирует его. Как это вписывается?