Награда
Беседка должна быть в состоянии сообщить вам положение конечной эффекторной линии, из которой мы можем вычислить прогресс , достигнутый к определенной точке после каждого шага (то есть положительный, если движение к цели, отрицательное, если далеко, и 0 в противном случае). Это само по себе должно стимулировать конечного эффектора к цели.
Вы можете сначала подтвердить, что система способна учиться только с этой базовой наградой c, прежде чем рассматривать другие критерии, такие как плавность (избегайте резких движений). ), вручение (расположение локтей слева / справа) et c. Их значительно сложнее определить, и их нужно будет разрабатывать вручную в соответствии с вашими потребностями, возможно, на основе совместных состояний и / или некоторых других производных, доступных в вашей среде.
Motion
Это будет во многом зависеть от вашего стека. Я добавляю эту часть просто как проходной комментарий, но, например, если вы используете ROS в качестве промежуточного программного обеспечения, то вы можете легко интегрировать Move-It , чтобы обрабатывать все движения за вас.