Мини-пакетная нейронная сеть - PullRequest
0 голосов
/ 28 июня 2019

Я пытаюсь правильно реализовать мини-дозирование для своего собственного NN.

Но я не могу обернуть голову о том, что суммируется? Суммирую ли я градиент или дельта-веса (где скорость обучения уже умножена) для веса и смещения, которые в моем примере:

Дельта Вес: activation'(neurons) ⊗ Error * learningRate x input

Delta Bias: activation'(neurons) ⊗ Error * learningRate

Должен ли я также делить суммированные дельта-веса или градиенты по размеру партии?

EDIT:

Итак, все вопросов подведены:

  • Дельта-вес без скорости обучения называется градиентом?
  • Нужно ли мне сложить эти дельта-веса с умноженной или без учащенной скоростью обучения
  • Значит, я должен спасти два отдельных градиента? (Уклон + вес)

1 Ответ

0 голосов
/ 29 июня 2019

После исследования в течение всей ночи и просмотра множества блогов / статей я пришел к этим ответам (которые работают для меня!)

1) Неважно, люди называют оба «градиентом»

2) без скорость обучения

3) Да, при завершении партии вы умножаете скорость обучения (... и выполнить оптимизацию импульса, если она реализована)

...