Ограничение на изменение действия в обучении подкрепления - PullRequest
0 голосов
/ 10 марта 2019

Я бы хотел построить автономный корабль в виртуальной среде с использованием DDPG .

Однако проблема в том, что есть пространство действия (-180 ', +180') для рулевого управления, и DDPG сможет выбрать -180 'в (t-1) и +180' в (t +) 1), что невозможно в реальном мире. (в принципе, вы не можете так быстро вращать руль.)


Возможное решение, о котором я думал, было следующим:

  1. Установить максимальную скорость рулевого управления (например, 10 'на шаг)

  2. Если выполненное действие выходит за пределы доступного диапазона действий (current_steeringWheel_angle - 10 ', current_steeringWheel_angle + 10'), измените выполненное действие на конечное значение в доступном диапазоне действий

  3. Сделайте шаг с измененным действием в виртуальной среде.


  4. (1-й вариант) обновить DDPG с измененным действием.
    (2-й вариант) обновить DDPG первоначально выполненным действием.

1 Ответ

0 голосов
/ 10 марта 2019

Я думаю, что нашел решение.


1-я ссылка:

enter image description here (источник: https://stats.stackexchange.com/questions/378008/how-to-handle-a-changing-action-space-in-reinforcement-learning/378025#378025?newreg=09ef385b87a54f27b5011f983dbf0270)

2-я ссылка (в основном речь идет о том же, что и выше.):

https://stats.stackexchange.com/questions/328835/enforcing-game-rules-in-alpha-go-zero


Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...