Что обозначают W и U в ГРУ? - PullRequest
1 голос
/ 24 января 2020

Я пытаюсь выяснить, как распространять рекуррентную сеть GRU, но у меня возникают проблемы с точным пониманием архитектуры GRU.

На рисунке ниже показана ячейка GRU с 3 нейронными сетями, получающая объединенное предыдущее скрытое состояние и входной вектор в качестве входных данных.

Пример GRU

На этом изображении, на которое я ссылался для обратного распространения, однако, показаны входы, перенаправляемые в W и U для каждого из ворот, добавлены, а затем применены их соответствующие функции активации.

Обратное распространение GRU

уравнение для ворот обновления, показанное в Википедии, является таким, как показано здесь в качестве примера

zt = сигмовидная ((W (z) x t + U (z) h t-1 ))

Может кто-нибудь объяснить мне, что обозначают W и U?

РЕДАКТИРОВАТЬ:

В большинстве источников, которые я нашел, W и U обычно называют "весами" так что я думаю, что W и U представляют собой свои собственные нейронные сетей, но это противоречило бы тому образу, который я нашел ранее.

, если кто-то мог бы привести пример того, как W и U будут работать в простой GRU, это было бы полезно.

Источники для изображения: https://cran.r-project.org/web/packages/rnn/vignettes/GRU_units.html https://towardsdatascience.com/animated-rnn-lstm-and-gru-ef124d06cf45

1 Ответ

0 голосов
/ 29 января 2020

W и U - это матрицы, значения которых выучены во время обучения (или веса нейронной сети). Матрица W умножает вектор xt и создает новый вектор. Точно так же матрица U умножает вектор ht-1 и создает новый вектор. Эти два новых вектора добавляются вместе, а затем каждый компонент результата передается в функцию sigmoid.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...