Я пытаюсь реализовать или, по крайней мере, в принципе, mimi c следующее поведение:
(A) "периодическая обработка с временной иерархией" с
(B) " вариационная единица "
, как описано на рисунке S10 (на странице 41) в этой статье, (1) производительность на уровне человека в многопользовательских играх от первого лица с основанным на населении обучением глубокому подкреплению .
Мне кажется, что цифра 1 (на странице 3) в другой статье, (2) Быстро-медленно повторяющиеся нейронные сети и сопровождающий ее код , похоже, напоминает что я хотел бы сделать в (A), но я не уверен, каковы тонкие различия, если таковые имеются.
Если предположить, что сопровождающий код способен достичь (A), какие изменения я должен включить в код , чтобы также достичь (B)?
Будет ли нормально использовать конечное быстрое ядро LSTM в качестве вариационного апостериорного Q?
Нужно ли минимизировать разницу между входом в медленное ядро LSTM и выходом быстрого ядра LSTM (как в обычном VAE) или будет минимизировать многомерную KL-дивергенцию между распределениями P (предыдущая) & Q (задний) достаточно?
Любые указатели будут оценены. Спасибо.