Question

Привет, сообщество StackOverflow!

У меня есть вопрос об актерско-критических моделях в обучении с подкреплением.

Во время прослушивания классов методов градиента политики Университета Беркли в лекции говорится, что в алгоритмах актер-критик, где мы оба оптимизируем нашу политику с некоторыми параметрами политики и наши функции значения с некоторыми параметрами функции значения, мы используем те же параметры в обеих задачах оптимизации (т. е. параметры политики = параметры функции значения) в некоторых алгоритмах (например, A2C / A3C)

Я не мог понять, как это работает. Я думал, что мы должны оптимизировать их отдельно. Как это решение с общими параметрами помогает нам?

Заранее спасибо:)

Simon · Answer 1 · 27 мая 2019

Вы можете сделать это, поделившись некоторыми (или всеми) слоями своей сети. Однако, если вы это сделаете, вы предполагаете, что существует общее представление состояния (выход промежуточного уровня), которое является оптимальным w.r.t. и то и другое. Это очень сильное предположение, и обычно оно не выполняется. Было показано, что он работает для обучения по изображению, когда вы помещаете (например) автоэнкодер сверху как в сеть актера, так и в сеть критиков и обучаете ее, используя функцию их суммы потерь.

Это упоминается в бумаге PPO (непосредственно перед уравнением (9)). Однако они просто говорят, что используют общие слои только для обучения играм Atari, а не для задач непрерывного управления. Они не говорят почему, но это может быть объяснено, как я сказал выше: игры Atari имеют низкоразмерное представление состояний, которое является оптимальным как для актера, так и для критика (например, закодированное изображение, усвоенное автоэнкодером), тогда как для При непрерывном управлении вы обычно переходите непосредственно в низкоразмерное состояние (координаты, скорости, ...).

A3C, который вы упомянули, также использовался в основном для игр (думаю, Doom).

Исходя из моего опыта, слои управления для совместного использования никогда не работали, если состояние уже компактно.

Как работают общие параметры в моделях актер-критик?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как работают общие параметры в моделях актер-критик?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы