Обучение обратному подкреплению для марковских игр - PullRequest
0 голосов
/ 03 июня 2019

Это проблема обучения обратному подкреплению (IRL).У меня есть данные (наблюдения) о действиях, предпринятых (реальным) агентом.Учитывая эти данные, я хочу оценить вероятность наблюдаемых действий в агенте Q-обучения.Награды даются линейной функцией параметра, скажем, альфа.

Таким образом, я хочу оценить альфу, которая делает наблюдаемые действия более вероятными для Q-агента.Я читал некоторые статьи (например, Ng & Russel 2004), но нашел их довольно обобщенными.

...