Пользовательский модуль внимания Lstm Caffe в Pytorch - PullRequest
0 голосов
/ 10 января 2019

Я реализую эту статью с оригинальным caffe исходным кодом в pytorch.

Автор говорит об улучшении механизма внимания в LSTM, однако детали немного неясны. проверьте заголовок 2.2.2 бумаги для деталей.

Хотя, насколько я понимаю, автор использовал тот же метод для весов внимания, который определен этим руководством для Pytorch .

То есть веса внимания рассчитываются с использованием линейного слоя с выходным сигналом кодера в качестве входного и затем конкататного уровня для прикладного внимания. А выравнивание внимания осуществляется через слой потерь, а не через любые изменения веса внимания, вектора внимания или вычисленного вектора контекста.

Но у авторов есть два блока LSTM Decoder AttLSTM Layer и Pred Lstm Layer, как видно из их файла модели pt , визуализированного здесь для лучшей интерпретации .

Мой вопрос в , первая предоставленная ссылка , уровень внимания Внимания_LSTM, представляет собой простой линейный уровень, вычисляющий веса внимания и затем переходящий к взвешенному входу для декодера LSTM, как в учебном примере с Pytorch. Или там что-то еще делается?

...