Как инвариантное вознаграждение помогает обучению? - PullRequest

1 Ответ

0 голосов
/ 30 апреля 2018

Цель - как можно быстрее доставить машину к месту назначения. Если у агента быстрый бег, хотя вознаграждение все еще отрицательное, оно все равно выше, чем нижнее вознаграждение, которое агент получал бы за относительно медленный бег. Этой разницы достаточно, чтобы агент выучил. Система поощрений для этой среды поощряет агента как можно быстрее добираться до своего целевого назначения, поскольку он прекращает получать отрицательные вознаграждения только по достижении этого состояния терминала.

...