Я реализую эту статью с оригинальным caffe исходным кодом в pytorch.
Автор говорит об улучшении механизма внимания в LSTM, однако детали немного неясны. проверьте заголовок 2.2.2 бумаги для деталей.
Хотя, насколько я понимаю, автор использовал тот же метод для весов внимания, который определен этим руководством для Pytorch .
То есть веса внимания рассчитываются с использованием линейного слоя с выходным сигналом кодера в качестве входного и затем конкататного уровня для прикладного внимания. А выравнивание внимания осуществляется через слой потерь, а не через любые изменения веса внимания, вектора внимания или вычисленного вектора контекста.
Но у авторов есть два блока LSTM Decoder AttLSTM Layer
и Pred Lstm Layer
, как видно из их файла модели pt , визуализированного здесь для лучшей интерпретации .
Мой вопрос в , первая предоставленная ссылка , уровень внимания Внимания_LSTM, представляет собой простой линейный уровень, вычисляющий веса внимания и затем переходящий к взвешенному входу для декодера LSTM, как в учебном примере с Pytorch. Или там что-то еще делается?