Я пытаюсь выяснить, как распространять рекуррентную сеть GRU, но у меня возникают проблемы с точным пониманием архитектуры GRU.
На рисунке ниже показана ячейка GRU с 3 нейронными сетями, получающая объединенное предыдущее скрытое состояние и входной вектор в качестве входных данных.
Пример GRU
На этом изображении, на которое я ссылался для обратного распространения, однако, показаны входы, перенаправляемые в W и U для каждого из ворот, добавлены, а затем применены их соответствующие функции активации.
Обратное распространение GRU
уравнение для ворот обновления, показанное в Википедии, является таким, как показано здесь в качестве примера
zt = сигмовидная ((W (z) x t + U (z) h t-1 ))
Может кто-нибудь объяснить мне, что обозначают W и U?
РЕДАКТИРОВАТЬ:
В большинстве источников, которые я нашел, W и U обычно называют "весами" так что я думаю, что W и U представляют собой свои собственные нейронные сетей, но это противоречило бы тому образу, который я нашел ранее.
, если кто-то мог бы привести пример того, как W и U будут работать в простой GRU, это было бы полезно.
Источники для изображения: https://cran.r-project.org/web/packages/rnn/vignettes/GRU_units.html https://towardsdatascience.com/animated-rnn-lstm-and-gru-ef124d06cf45