Question

Я пытаюсь создать пользовательскую среду для обучения с подкреплением в тренажерном зале openAI.Мне нужно представить все возможные значения, которые окружение увидит в переменной с именем observation_space.Есть 3 возможных действия для агента, которые называются action_space

Чтобы быть более точным, observation_space - это датчик температуры, который будет видеть возможные диапазоны от 50 до 150 градусов, и я думаю, что могу представить всеэто по:

РЕДАКТИРОВАТЬ, у меня неправильный массив numy action_space

import numpy as np
action_space = np.array([ 0,  1,  2])
observation_space = np.arange(50,150,1)

Есть ли лучший метод, который я мог бы использовать для observation_space, где я мог бы хранить данные?IE, сделайте 20 корзин 50-55, 55-60, 60-65 и т. Д. ...

Я думаю, что у меня будет работать, но кажется довольно громоздким ... И я уверен, что есть лучшепрактиковать, так как с моей стороны не так много мудрости в этом вопросе.Это распечатает таблицу Q:

action_size = action_space.shape[0]
state_size = observation_space.shape[0]

qtable = np.zeros((state_size, action_size))
print(qtable)

Simon · Answer 1 · 13 декабря 2018

Это на самом деле не связано с программированием, поэтому, возможно, на stats.stackexchange вы можете получить лучшие ответы.Во всяком случае, это зависит только от того, сколько точности вы хотите.Я предполагаю, что вы хотите изменить температуру (увеличить, уменьшить, не менять) в соответствии с показаниями датчика.Есть ли много различий (с точки зрения оптимального действия) между 50 и 51?Если нет, то вы можете дискретизировать пространство состояний каждые 2 градуса.И так далее.

В более общем смысле, при этом вы используете то, что в RL называется "функциями".Дискретизация по интервалу пространства состояний называется кодированием плитки и обычно работает хорошо.

Если вы новичок в RL, я действительно советую прочитать эту книгу или, по крайней мере, главы 1,3,4, связанные с тем, что вы делаете.

Python binning data openAI тренажерный зал

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python binning data openAI тренажерный зал

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы