Правильный ли этот пример нарушения политики? - PullRequest
1 голос
/ 26 мая 2020

Я читаю Саттона и Барто и хочу убедиться, что все понятно.

Для обучения вне политики можем ли мы думать о роботе в конкретной местности - скажем, на песке - как о целевой политике, но использовать политика роботов по ходьбе по снегу как политика поведения? Мы используем наш опыт ходьбы по снегу, чтобы приблизительно определить оптимальную политику ходьбы по песку?

1 Ответ

2 голосов
/ 26 мая 2020

Ваш пример работает, но я думаю, что он немного ограничивает. В методе вне политики поведенческая политика - это просто функция, которая используется для исследования пространства состояния и действия, в то время как другая функция (как вы говорите, цель) оптимизируется. Это означает, что до тех пор, пока функция поведения определена в том же домене, что и целевая политика, на самом деле не имеет значения, является ли это случайным процессом или результатом предыдущего обучения (например, вашего робота, который ходит по песку). Он исследует пространство состояние-действие, поэтому он соответствует определению. Хорошо это или плохо - другой рассказ.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...