Я пытаюсь разработать политику lstm, используя Marwil в rllib. Я не смог найти примеров того, как настроить пакеты для этой проблемы. Я обучаю модель marwil очень хорошо, если у нее нет компонента lstm, используя инструкции здесь.
https://ray.readthedocs.io/en/latest/rllib-offline.html
Однако, когда я пытаюсь добавить компонент lstm, я получаюошибка о
"тензор seq_lens должен быть задан, если определены входные данные состояния"
, что, как я понимаю, означает, что мне нужно передать ему последовательность длин RNN. Справедливо, я определяю
prev_actions -> список из двадцати прошлых действий для всех N очков в эпизоде prev_rewards -> список из двадцати прошлых наград за все N очков в эпизоде prev_observations -> список из двадцати прошлых наблюдений длявсе N точек в эпизоде seq_lens -> [20, 20, 20, ..., 20] для всех N точек в эпизоде
в API пакетного конструктора, но однажды я пытаюсь запустить трейнер MarwilЯ все еще получаю ошибку
тензор seq_lens должен быть задан, если определены входные данные состояния
Есть ли у кого-нибудь понимание этого?
Спасибо!