Question

Я пытаюсь правильно реализовать мини-дозирование для своего собственного NN.

Но я не могу обернуть голову о том, что суммируется? Суммирую ли я градиент или дельта-веса (где скорость обучения уже умножена) для веса и смещения, которые в моем примере:

Дельта Вес: activation'(neurons) ⊗ Error * learningRate x input

Delta Bias: activation'(neurons) ⊗ Error * learningRate

Должен ли я также делить суммированные дельта-веса или градиенты по размеру партии?

EDIT:

Итак, все вопросов подведены:

Дельта-вес без скорости обучения называется градиентом?
Нужно ли мне сложить эти дельта-веса с умноженной или без учащенной скоростью обучения
Значит, я должен спасти два отдельных градиента? (Уклон + вес)

filip · Answer 1 · 29 июня 2019

После исследования в течение всей ночи и просмотра множества блогов / статей я пришел к этим ответам (которые работают для меня!)

1) Неважно, люди называют оба «градиентом»

2) без скорость обучения

3) Да, при завершении партии вы умножаете скорость обучения (... и выполнить оптимизацию импульса, если она реализована)

Мини-пакетная нейронная сеть

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Мини-пакетная нейронная сеть

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы