Модель RL определяется как P^a_ss'
, пространство действия непрерывно. Чтобы агент знал, что env будет вести себя по-своему, независимо от того, что делает агент, что я буду делать?
Желательно также изучить изменение состояния env, достаточно ли RL для работы? Если да, env имеет только одну непрерывную переменную x_0
в пространстве наблюдений и множество скрытых факторов x_1, x_2, ...
, которые влияют на x_0
; x_1, x_2, ...
тоже должен быть в пространстве наблюдения? Если нет, что я буду делать рядом с RNN?