TRPO - RL: мне нужно получить руку робота 8DOF, чтобы переместиться в указанную точку. Мне нужно реализовать код TRPO RL, используя тренажерный зал OpenAI со средой Gazebo? - PullRequest
0 голосов
/ 05 марта 2020

TRPO - RL: мне нужно получить руку робота 8DOF, чтобы переместить указанную точку. Мне нужно реализовать код TRPO RL, используя тренажерный зал OpenAI. У меня уже есть беседка. Но я не уверен, как написать код для функций вознаграждения и алгоритм совместного движения в пространстве. Пожалуйста помоги.

1 Ответ

0 голосов
/ 07 марта 2020

Награда

Беседка должна быть в состоянии сообщить вам положение конечной эффекторной линии, из которой мы можем вычислить прогресс , достигнутый к определенной точке после каждого шага (то есть положительный, если движение к цели, отрицательное, если далеко, и 0 в противном случае). Это само по себе должно стимулировать конечного эффектора к цели.

Вы можете сначала подтвердить, что система способна учиться только с этой базовой наградой c, прежде чем рассматривать другие критерии, такие как плавность (избегайте резких движений). ), вручение (расположение локтей слева / справа) et c. Их значительно сложнее определить, и их нужно будет разрабатывать вручную в соответствии с вашими потребностями, возможно, на основе совместных состояний и / или некоторых других производных, доступных в вашей среде.

Motion

Это будет во многом зависеть от вашего стека. Я добавляю эту часть просто как проходной комментарий, но, например, если вы используете ROS в качестве промежуточного программного обеспечения, то вы можете легко интегрировать Move-It , чтобы обрабатывать все движения за вас.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...