Question

Я разрабатываю функцию вознаграждения, которая будет передана моему агенту TRPO, и мне было интересно, смогу ли я суммировать / умножить ее на скаляр. Я понимаю, что важно сохранять дисперсию между самым низким и самым высоким значениями, но, кроме этого, есть ли какое-то преимущество в наличии очень высоких / низких значений?

Я думал, что было бы лучше умножьте его на высокое значение, сделав его более разреженным, что будет означать, что градиент будет выше, и я бы избежал таких проблем, как исчезновение градиентов, но насколько высоким должно быть это значение?

Спасибо!

Какие виды линейных преобразований я могу применить к награде в обучении подкреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Какие виды линейных преобразований я могу применить к награде в обучении подкреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы