Я тренировал «Humanoid-v2» (https://github.com/openai/gym/wiki/Humanoid-V1), чтобы ходить. Награды увеличиваются во время обучения. Но мне нужна еще одна матрица производительности, которая говорит мне , как далеко продвинулся агент?
Имеется 376 наблюдений за этим агентом (https://github.com/openai/gym/wiki/Humanoid-V1). Какие значения соответствуют позиции x, y, z, указанной в строке 27 XML-файла агента : https://github.com/openai/gym/blob/master/gym/envs/mujoco/assets/humanoid.xml#L27?
Спасибо
dist = tf.add (tf.squared_difference (x2, x1), tf.squared_difference (y2, y1), tf.squared_difference (z2, z1))