Я пытаюсь реализовать архитектуру из следующей статьи: https://arxiv.org/pdf/1511.06391.pdf.
Части, в которых я застрял, относятся к уравнениям (3) и (7). В частности, авторы указывают, что этот LSTM не принимает никаких входных данных и что выходное состояние q * зависит от скрытого состояния q. Однако, исходя из моего понимания LSTM, q * и q должны иметь одинаковые размеры. Теперь это, очевидно, неверно, так как q * = [q, r], где r - это то же измерение, что и q (из уравнения 3, чтобы сделать возможным скалярное произведение). Итак, я что-то неправильно понимаю, но не понимаю, что это такое.
В качестве бонуса, как написать LSTM, который не требует ввода в TensorFlow?
Большое спасибо за ваше внимание!