Question

Я пытаюсь реализовать пользовательскую среду openai тренажерного зала.И пространство действия, и пространство наблюдения содержат комбинацию списка значений и дискретных пространств.Я правильно смоделировал это?Например:

        self.action_space = spaces.Tuple((
                                            spaces.Tuple((self.actions)),                                  
                                            spaces.Discrete(101)                                                
                                        ))

где self.actions - это список значений возможных действий, для каждого из которых может не быть дополнительного дискретного действия диапазона 100. Пространство наблюдения совпадает с комбинацией списказначения и дискретные значения.Это правильный способ моделировать его?Кроме того, я использую keras-rl для запуска агентов и требует:

        nb_actions = env.action_space.n and
        model.add(Flatten(input_shape=(1,) + env.observation_space.shape))

Как мне реализовать n и shape для пространств кортежей?Я пытался: nb_actions = len (env.action_space.spaces) Это то же самое, что и n?Как заменить env.observation_space.shape?

openai тренажерный зал нестандартная среда action_space и наблюдение_space howto

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

openai тренажерный зал нестандартная среда action_space и наблюдение_space howto

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы