Сообщество Hi StackOverflow,
У меня проблема с методами градиента политики в обучении с подкреплением.
В методах градиента политики мы увеличиваем / уменьшаем логарифмическую вероятность действия, основываясь на возврате (то есть общем вознаграждении) с этого шага и далее. Поэтому, если наше возвращение велико, мы увеличиваем его, но у меня есть проблемы на этом этапе
Скажем, у нас есть три награды в нашем возвращении. Хотя сумма всех этих трех наград высока, вторая награда действительно плохая.
Как мы решаем эту проблему? Как мы оцениваем каждую награду отдельно? Есть ли альтернативная версия этого метода градиента политики?