Это проблема обучения обратному подкреплению (IRL).У меня есть данные (наблюдения) о действиях,...
Я занимаюсь исследованием проблемы решения с конечным горизонтом с t = 1, ..., 40 периодами. На...