Перевернутый маятник: на основе модели или без модели? - PullRequest
0 голосов
/ 02 мая 2018

Это мой первый пост здесь, и я пришел сюда, чтобы обсудить или получить разъяснения о том, что мне трудно понять, а именно о методах RL без моделей и против моделей. В настоящее время я внедряю Q-learning, но не уверен, что делаю это правильно.

Пример: скажем, я применяю Q-learning к перевернутому маятнику, где вознаграждение дается как абсолютное расстояние между положением маятника вверх, а конечное состояние (или состояние цели) определяется, когда маятник очень близок в верхнее положение.

Будет ли эта настройка означать, что у меня есть установка без модели или на основе модели? Насколько я понял, это будет основано на модели, так как у меня есть модель среды, которая дает мне награду (R = abs (pos-wantedPos)). Но потом я увидел реализацию этого с использованием Q-learning (https://medium.com/@tuzzer/cart-pole-balancing-with-q-learning-b54c6068d947),, который является безмодельным алгоритмом. Теперь я ничего не понимаю ...

Благодарен за все ответы.

1 Ответ

0 голосов
/ 02 мая 2018

Q-обучение ванили без модели.

Идея, лежащая в основе обучения с подкреплением, заключается в том, что агента обучают изучать оптимальную политику, основанную на парах состояний и вознаграждений, - это в отличие от попытки моделирования среды.

Если бы вы выбрали подход, основанный на модели, вы бы попытались смоделировать среду и в конечном итоге выполнить итерацию значений или итерацию политики процесса принятия решений Маркова.

В обучении с подкреплением предполагается, что у вас нет MDP, и, следовательно, вы должны попытаться найти оптимальную политику, основанную на различных вознаграждениях, которые вы получаете от своего опыта.

Для более подробного объяснения, проверьте этот пост .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...