Правило обучения персептрона, зачем умножать на х - PullRequest
0 голосов
/ 20 мая 2018

Я читал книгу по машинному обучению Тома Митчелла, и он упомянул формулу для правила обучения персептрона:

enter image description here

где

enter image description here

  • enter image description here: курс обучения
  • enter image description here: ожидаемый результат
  • enter image description here: фактический выход
  • enter image description here: i-й вход

Это означает, что если enter image description here очень велик, тогда как и enter image description here, но я не понимаю цели большого обновления, когда enter image description here велико

напротив, я чувствую, что если имеется большое значение enter image description here, то обновление должно быть небольшим, поскольку небольшое отклонение в enter image description here приведет к значительному изменениюконечный результат (из-за enter image description here)

1 Ответ

0 голосов
/ 20 мая 2018

Корректировки - это сложение и вычитание векторов, которые можно представить как вращение гиперплоскости так, что класс 0 падает на одну часть, а класс 1 падает на другую часть.

Рассмотрим 1xd весовой вектор enter image description here с указанием веса модели персептрона.Кроме того, рассмотрим 1xd точку данных enter image description here.Тогда прогнозируемое значение модели персептрона, учитывая линейный порог без потери общности, будет

enter image description here - уравнение.1

Здесь '.'является точечным произведением, или

enter image description here

Выше приведено уравнение гиперплоскости

enter image description here

(игнорируя индексы итераций для весовых обновлений для простоты)

Давайте рассмотрим, что у нас есть два класса 0 и 1, опять же без потери общности, точки данных, помеченные 0, попадают наодна сторона, где уравнение <= 0 гиперплоскости, а точки данных, помеченные <code>1, попадают на другую сторону, где уравнение> 0.

Вектор, нормальный дляэта гиперплоскость равна enter image description here.Угол между точками данных с меткой 0 должен быть больше 90 градусов, а точки данных между точками данных с меткой 1 должны быть меньше 90 градусов.

Существует три возможности enter image description here (без учета курса обучения)

  • enter image description here: подразумевается, что этот пример правильно классифицирован по текущему набору весов.Поэтому нам не нужны какие-либо изменения для конкретной точки данных.
  • enter image description here, что подразумевает, что целью было 1, но нынешний набор весов классифицировал его как 0.Уравнениеenter image description here, который должен был быть enter image description here.EQ1.в этом случае enter image description here, что означает, что угол между enter image description here и enter image description here на больше, чем 90 градусов, которые должны были быть меньше.Правило обновления: enter image description here.Если представить сложение вектора в 2d, это приведет к повороту гиперплоскости так, что угол между enter image description here и enter image description here будет ближе, чем прежде, и меньше, чем 90 градусов.
  • enter image description here, что означает, что целью было 0, но существующий набор весов классифицировал его как 1.Eq1.enter image description here, который должен был быть enter image description here.EQ1.в этом случае enter image description here указывает, что угол между enter image description here и enter image description here составляет меньше, чем 90 градусов, который должен был быть больше.Правило обновления: enter image description here.Точно так же это будет вращать гиперплоскость так, что угол между enter image description here и enter image description here больше 90 градусов.

Это повторяетсянад и над, и гиперплоскость поворачивается и регулируется таким образом, чтобы угол нормали гиперплоскости составлял менее 90 градусов с точкой данных с классом, помеченным 1, и больше, чем 90 градусов с точками данных класса, помеченными 0.

Если величина enter image description here огромна, произойдут большие изменения, и, следовательно, это вызовет проблемы в процессе, и может потребоваться больше итераций для схождения в зависимости от величиныначальные веса.Поэтому хорошей идеей является нормализация или стандартизация точек данных.С этой точки зрения легко визуализировать, что именно делают правила обновления визуально (рассмотрим смещение как часть гиперплоскости (1)).Теперь распространите это на более сложные сети и / или с пороговыми значениями.

Рекомендуемое чтение и справочник: Нейронные сети, систематическое введение Рауля Рохаса : Глава 4

...