Как интерпретировать градиент и частную производную при обновлении весов нейронной сети? - PullRequest
0 голосов
/ 26 февраля 2020

Я только начал изучать сетевые сети, и мне удалось выяснить, как получить уравнения, необходимые для обратного распространения. Я провел почти 3 дня, расспрашивая всех своих профессоров и отыскивая все, что я могу найти. Мои математические навыки по общему признанию плохие, но я действительно хочу понять, как эта конкретная формула имеет математическое значение. Формула используется для обновления веса после того, как градиент уже найден.

W1 = W0 - L * (dC / dw)

Где:

W1 = новый вес

W0 = старый вес

L = скорость обучения

dC / dw = частная производная функции ошибки и член вектора градиента функции стоимости

Что я знаю до сих пор:

  1. Градиент - это вектор его частных производных, и максимальная скорость роста определяется сам градиент. Каждая частная производная дает максимальную скорость изменения направления, к которому относится производная.
  2. dC / dW является одной из этих частных производных.
  3. dC / dW оценивается как скорость перемен. Это знак может сказать нам направление перемен. Само значение является пропорцией между изменением стоимости и изменением веса при определенном весе.
  4. Каким-то образом умножение dC / dW на скорость обучения принимает только небольшую часть этой скорости за изменение веса.

Что я не могу согласовать:

  1. Скорость обучения - это просто скаляр без единиц. Как можно просто умножить скаляр на коэффициент и в итоге получить измеримое изменение веса? Что я здесь не понимаю?

1 Ответ

0 голосов
/ 26 февраля 2020

Искусственные нейронные сети (ANN) основаны на концепции, взятой из нервной системы человека. Основным звеном нервной системы человека является нейрон. Чтобы ощутить стимул, эти нейроны присутствуют во всем теле, и каждый нейрон связан с другим нейроном, чтобы передать форму сообщения этой части тела в мозг. Передача сигнала нейронами контролируется концентрацией определенных химических веществ. присутствует в нейроне. Концентрация этих химических веществ обычно остается в сбалансированном состоянии, и это не вызывает беспокойства, пока не почувствуется стимул. Следовательно, не передает сигнал другому нейрону, если нет стимула. Однако, когда стимул ощущается (например, человек отрезал свою фигуру от его кончика, стимул ощущается на кончике фигуры присутствующими там нейронами), концентрация химических веществ на поверхности нейрона увеличивается, и сигнал передается другому нейрону. Природа сигнала и сообщения, закодированных внутри, зависит от концентрации изменений в химических веществах.

В ANN нейрон - это математическая функция или формула, а вес нейрона подобен уровню химической концентрации в нейроне человека. Веса должны быть отрегулированы так, чтобы формула фиксирования могла закодировать всю информацию для выполнения всех желаемых предсказаний, закодированных в человеческом нейроне посредством концентрации химического вещества. Чтобы определить правильные веса, ANN обучается с помощью огромных данных для проблемы, для которой ANN готовится.

Скорость обучения - это скаляр, который обычно варьируется от 0 до 1, включая оба. Просто учите скорость, определяйте темп обновления веса. Производная - это скорость изменения между двумя значениями. Здесь в этом случае две точки - это прогнозируемые значения и реальные значения. Например, (dC / dw) вы можете просто использовать функцию стоимости, она также известна как ответственность этого самого нейрона за ошибку во всей сети. Формула также может варьироваться от слоя к слою и от текста к тексту. Вот ссылка, которая подробно объясняет структуру нейронной сети с прямой связью. надеюсь, вы поймете это. Если вы все еще в замешательстве, вы можете спросить дальше.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...