Какие виды линейных преобразований я могу применить к награде в обучении подкреплению? - PullRequest
0 голосов
/ 04 мая 2020

Я разрабатываю функцию вознаграждения, которая будет передана моему агенту TRPO, и мне было интересно, смогу ли я суммировать / умножить ее на скаляр. Я понимаю, что важно сохранять дисперсию между самым низким и самым высоким значениями, но, кроме этого, есть ли какое-то преимущество в наличии очень высоких / низких значений?

Я думал, что было бы лучше умножьте его на высокое значение, сделав его более разреженным, что будет означать, что градиент будет выше, и я бы избежал таких проблем, как исчезновение градиентов, но насколько высоким должно быть это значение?

Спасибо!

...