Механизм внимания с LSTM, который не требует ввода - PullRequest
0 голосов
/ 13 ноября 2018

Я пытаюсь реализовать архитектуру из следующей статьи: https://arxiv.org/pdf/1511.06391.pdf.

Части, в которых я застрял, относятся к уравнениям (3) и (7). В частности, авторы указывают, что этот LSTM не принимает никаких входных данных и что выходное состояние q * зависит от скрытого состояния q. Однако, исходя из моего понимания LSTM, q * и q должны иметь одинаковые размеры. Теперь это, очевидно, неверно, так как q * = [q, r], где r - это то же измерение, что и q (из уравнения 3, чтобы сделать возможным скалярное произведение). Итак, я что-то неправильно понимаю, но не понимаю, что это такое.

В качестве бонуса, как написать LSTM, который не требует ввода в TensorFlow?

Большое спасибо за ваше внимание!

...