Я смотрю здесь в классе внимания Богданау. Я заметил, что окончательная форма вектора контекста (batch_size, hidden_size)
. Мне интересно, как они получили эту форму, учитывая, что Внимание_Весы имеют форму (batch_size, 64, 1)
, а объекты имеют форму (batch_size, 64, embedding_dim)
. Они умножили два (я думаю, что это матричный продукт), а затем суммировали по первой оси. Откуда исходит скрытый размер в контекстном векторе?