Я пытаюсь правильно реализовать мини-дозирование для своего собственного NN.
Но я не могу обернуть голову о том, что суммируется? Суммирую ли я градиент или дельта-веса (где скорость обучения уже умножена) для веса и смещения, которые в моем примере:
Дельта Вес: activation'(neurons) ⊗ Error * learningRate x input
Delta Bias: activation'(neurons) ⊗ Error * learningRate
Должен ли я также делить суммированные дельта-веса или градиенты по размеру партии?
EDIT:
Итак, все вопросов подведены:
- Дельта-вес без скорости обучения называется градиентом?
- Нужно ли мне сложить эти дельта-веса с умноженной или без учащенной скоростью обучения
- Значит, я должен спасти два отдельных градиента? (Уклон + вес)