Question

Я тренировал «Humanoid-v2» (https://github.com/openai/gym/wiki/Humanoid-V1), чтобы ходить. Награды увеличиваются во время обучения. Но мне нужна еще одна матрица производительности, которая говорит мне , как далеко продвинулся агент?

Имеется 376 наблюдений за этим агентом (https://github.com/openai/gym/wiki/Humanoid-V1). Какие значения соответствуют позиции x, y, z, указанной в строке 27 XML-файла агента : https://github.com/openai/gym/blob/master/gym/envs/mujoco/assets/humanoid.xml#L27?

Спасибо

zishan ahmed · Answer 1 · 12 декабря 2018

Пусть начальная позиция будет (x1, y1, z1), а позиция после шага будет (x2, y2, z2)
Расстояние, пройденное агентом за шаг, будет следующим:

dist = tf.add (tf.squared_difference (x2, x1), tf.squared_difference (y2, y1), tf.squared_difference (z2, z1))

Суммируйте расстояния в памяти до конца эпизода

Как найти расстояние, пройденное агентом Humanoid-v2 после тренировки?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как найти расстояние, пройденное агентом Humanoid-v2 после тренировки?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы