Question

Это проблема обучения обратному подкреплению (IRL).У меня есть данные (наблюдения) о действиях, предпринятых (реальным) агентом.Учитывая эти данные, я хочу оценить вероятность наблюдаемых действий в агенте Q-обучения.Награды даются линейной функцией параметра, скажем, альфа.

Таким образом, я хочу оценить альфу, которая делает наблюдаемые действия более вероятными для Q-агента.Я читал некоторые статьи (например, Ng & Russel 2004), но нашел их довольно обобщенными.

Обучение обратному подкреплению для марковских игр

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Обучение обратному подкреплению для марковских игр

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы