spaces.Box
означает, что вы имеете дело с действительными величинами.
Например:
action_space = spaces.Box(np.array([-1,0,1]), np.array([1,1,2]))
Здесь действия являются трехмерными. Кроме того, [-1,0,1]
является самым низким допустимым значением, а [1,1,2]
является самым высоким принятым значением.
По сути, a=[a1,a2,a3]
,
a1
находится в диапазоне [-1,1], a2
находится в диапазоне [0,1], a3
является в диапазоне [1,2].
Если существует множество «способностей» с огромным разнообразием, то вектор состояния может стать довольно огромным, если использовать одно горячее кодирование. Следовательно, было бы целесообразно использовать регулярные инкрементные идентификаторы. Но нормализуйте их в диапазоне [0,1], чтобы активации нейронной сети не насыщались.