Как найти расстояние, пройденное агентом Humanoid-v2 после тренировки? - PullRequest
0 голосов
/ 11 декабря 2018

Я тренировал «Humanoid-v2» (https://github.com/openai/gym/wiki/Humanoid-V1), чтобы ходить. Награды увеличиваются во время обучения. Но мне нужна еще одна матрица производительности, которая говорит мне , как далеко продвинулся агент?

Имеется 376 наблюдений за этим агентом (https://github.com/openai/gym/wiki/Humanoid-V1). Какие значения соответствуют позиции x, y, z, указанной в строке 27 XML-файла агента : https://github.com/openai/gym/blob/master/gym/envs/mujoco/assets/humanoid.xml#L27?

Спасибо

1 Ответ

0 голосов
/ 12 декабря 2018
  • Пусть начальная позиция будет (x1, y1, z1), а позиция после шага будет (x2, y2, z2)
  • Расстояние, пройденное агентом за шаг, будет следующим:

dist = tf.add (tf.squared_difference (x2, x1), tf.squared_difference (y2, y1), tf.squared_difference (z2, z1))

  • Суммируйте расстояния в памяти до конца эпизода
...