Как мы оцениваем каждое вознаграждение за возврат в методах градиента политики? - PullRequest
0 голосов
/ 10 июня 2019

Сообщество Hi StackOverflow,

У меня проблема с методами градиента политики в обучении с подкреплением.

В методах градиента политики мы увеличиваем / уменьшаем логарифмическую вероятность действия, основываясь на возврате (то есть общем вознаграждении) с этого шага и далее. Поэтому, если наше возвращение велико, мы увеличиваем его, но у меня есть проблемы на этом этапе

Скажем, у нас есть три награды в нашем возвращении. Хотя сумма всех этих трех наград высока, вторая награда действительно плохая.

Как мы решаем эту проблему? Как мы оцениваем каждую награду отдельно? Есть ли альтернативная версия этого метода градиента политики?

1 Ответ

0 голосов
/ 11 июня 2019

Это многоцелевая задача , где награда не скалярная, а векторная.По определению, не существует единой оптимальной политики в классическом смысле, но есть набор оптимальных по Парето политик, т. Е. Для которых вы не можете добиться лучших результатов в достижении цели (например, максимальной суммы первой награды), не теряя чего-либо надругая цель (максимальная сумма других наград).Существует много способов решения многоцелевых задач, как в оптимизации (часто генетические алгоритмы ), так и в RL.Наивно, вы можете просто применить скаляризацию к вознаграждениям с помощью линейного взвешивания, но это действительно неэффективно.Более сложные подходы изучают многообразие в пространстве параметров политики (например, this ).

...