Я пытаюсь создать пользовательскую среду для обучения с подкреплением в тренажерном зале openAI.Мне нужно представить все возможные значения, которые окружение увидит в переменной с именем observation_space
.Есть 3 возможных действия для агента, которые называются action_space
Чтобы быть более точным, observation_space
- это датчик температуры, который будет видеть возможные диапазоны от 50 до 150 градусов, и я думаю, что могу представить всеэто по:
РЕДАКТИРОВАТЬ, у меня неправильный массив numy action_space
import numpy as np
action_space = np.array([ 0, 1, 2])
observation_space = np.arange(50,150,1)
Есть ли лучший метод, который я мог бы использовать для observation_space
, где я мог бы хранить данные?IE, сделайте 20 корзин 50-55, 55-60, 60-65 и т. Д. ...
Я думаю, что у меня будет работать, но кажется довольно громоздким ... И я уверен, что есть лучшепрактиковать, так как с моей стороны не так много мудрости в этом вопросе.Это распечатает таблицу Q:
action_size = action_space.shape[0]
state_size = observation_space.shape[0]
qtable = np.zeros((state_size, action_size))
print(qtable)