Я создал среду спортзала с непрерывным 2-мерным пространством действий.
В методе __init__(self)
я задаю границы пространства, скажем, [-2; 2] с помощью
high = 2.*np.ones(2, dtype=float32);
self.action_space = spaces.box(-high, high, dtype=float32)
Однако выборка с актером DDPGAgent, предоставленным в библиотеке Keras-rl, почти всегда дает действие вне этих границ ... На самом деле, очень далеко от них.
Отсечение действий вstep(self, action)
метод не помогает, так как сэмплированное действие записывается при воспроизведении опыта, а не обрезанное ...
Я что-то упустил?
Спасибо за помощь!