Question

Я новичок в машинном обучении и пытаюсь решить MountainCar-v0, используя Q-learning. Я могу решить проблему сейчас, но я все еще в замешательстве.

Согласно Wiki от MountainCar-v0, награда остается -1 за каждый шаг, даже если машина достигла места назначения. Как инвариантное вознаграждение помогает агенту учиться? Если каждый шаг дает одинаковое вознаграждение, как агент может определить, хороший это ход или плохой?

Заранее спасибо!

R.F. Nelson · Answer 1 · 30 апреля 2018

Цель - как можно быстрее доставить машину к месту назначения. Если у агента быстрый бег, хотя вознаграждение все еще отрицательное, оно все равно выше, чем нижнее вознаграждение, которое агент получал бы за относительно медленный бег. Этой разницы достаточно, чтобы агент выучил. Система поощрений для этой среды поощряет агента как можно быстрее добираться до своего целевого назначения, поскольку он прекращает получать отрицательные вознаграждения только по достижении этого состояния терминала.

Как инвариантное вознаграждение помогает обучению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как инвариантное вознаграждение помогает обучению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы