Question

Я новичок в усиленном обучении, и я хочу попробовать написать свою собственную маленькую библиотеку, и мне стало интересно, есть ли какая-либо причина для внедрения градиентов политики.

СПАСИБО !!

Mochan · Answer 1 · 11 февраля 2020

Actor-criti c - это тип алгоритма градиента политики. Если вы не используете некоторую терминологию, отличную от той, к которой я привык.

В алгоритме градиента политики мы берем политику, параметризованную по некоторым параметрам, находим градиент политики на основе предпринятых действий и затем обновите параметры политики в направлении градиента.

Актер-критик c делает именно это.

В actor-criti c функция значения также рассчитывается и влияет на обновление. Но это все еще алгоритм градиента политики.

Усиление обучения: Actor-Criti c всегда лучше, чем метод градиента политики?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Усиление обучения: Actor-Criti c всегда лучше, чем метод градиента политики?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы