Question

Я читаю Саттона и Барто и хочу убедиться, что все понятно.

Для обучения вне политики можем ли мы думать о роботе в конкретной местности - скажем, на песке - как о целевой политике, но использовать политика роботов по ходьбе по снегу как политика поведения? Мы используем наш опыт ходьбы по снегу, чтобы приблизительно определить оптимальную политику ходьбы по песку?

Ash · Answer 1 · 26 мая 2020

Ваш пример работает, но я думаю, что он немного ограничивает. В методе вне политики поведенческая политика - это просто функция, которая используется для исследования пространства состояния и действия, в то время как другая функция (как вы говорите, цель) оптимизируется. Это означает, что до тех пор, пока функция поведения определена в том же домене, что и целевая политика, на самом деле не имеет значения, является ли это случайным процессом или результатом предыдущего обучения (например, вашего робота, который ходит по песку). Он исследует пространство состояние-действие, поэтому он соответствует определению. Хорошо это или плохо - другой рассказ.

Правильный ли этот пример нарушения политики?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Правильный ли этот пример нарушения политики?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы