Question

Я бы хотел построить автономный корабль в виртуальной среде с использованием DDPG .

Однако проблема в том, что есть пространство действия (-180 ', +180') для рулевого управления, и DDPG сможет выбрать -180 'в (t-1) и +180' в (t +) 1), что невозможно в реальном мире. (в принципе, вы не можете так быстро вращать руль.)

Возможное решение, о котором я думал, было следующим:

Установить максимальную скорость рулевого управления (например, 10 'на шаг)
Если выполненное действие выходит за пределы доступного диапазона действий (current_steeringWheel_angle - 10 ', current_steeringWheel_angle + 10'), измените выполненное действие на конечное значение в доступном диапазоне действий
Сделайте шаг с измененным действием в виртуальной среде.
(1-й вариант) обновить DDPG с измененным действием.
(2-й вариант) обновить DDPG первоначально выполненным действием.

Dane Lee · Answer 1 · 10 марта 2019

Я думаю, что нашел решение.

1-я ссылка:

(источник: https://stats.stackexchange.com/questions/378008/how-to-handle-a-changing-action-space-in-reinforcement-learning/378025#378025?newreg=09ef385b87a54f27b5011f983dbf0270)

2-я ссылка (в основном речь идет о том же, что и выше.):

https://stats.stackexchange.com/questions/328835/enforcing-game-rules-in-alpha-go-zero

Ограничение на изменение действия в обучении подкрепления

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

1-я ссылка:

2-я ссылка (в основном речь идет о том же, что и выше.):

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Ограничение на изменение действия в обучении подкрепления

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

1-я ссылка:

2-я ссылка (в основном речь идет о том же, что и выше.):

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы