Усиление обучения с переменными действиями - PullRequest
11 голосов
/ 07 марта 2011

Все алгоритмы обучения с подкреплением , о которых я читал, обычно применяются к одному агенту с фиксированным числом действий.Существуют ли алгоритмы обучения с подкреплением для принятия решения с учетом переменного количества действий?Например, как бы вы применили алгоритм RL в компьютерной игре, где игрок контролирует N солдат, и каждый солдат выполняет случайное количество действий в зависимости от своего состояния?Вы не можете сформулировать фиксированное количество действий для лица, принимающего глобальные решения (т. Е. «Общего»), потому что доступные действия постоянно меняются по мере создания и убийства солдат.И вы не можете сформулировать фиксированное количество действий на уровне солдата, так как действия солдата обусловлены его непосредственным окружением.Если солдат не видит противников, он может только ходить, тогда как если он видит 10 противников, у него есть 10 новых возможных действий, атакующих 1 из 10 противников.

Ответы [ 2 ]

3 голосов
/ 29 июля 2011

То, что вы описываете, не является чем-то необычным.Усиленное обучение - это способ найти функцию стоимости Марковского процесса принятия решения .В MDP каждое государство имеет свой набор действий.Чтобы приступить к обучению с подкреплением, вы должны четко определить, какие состояния, действия и награды относятся к вашей проблеме.

1 голос
/ 07 марта 2011

Если у вас есть ряд действий для каждого солдата, которые доступны или не доступны в зависимости от некоторых условий, то вы все равно можете смоделировать это как выбор из фиксированного набора действий.Например:

  • Создать «служебную ценность» для каждого из полного набора действий для каждого солдата
  • Выберите действие с наибольшей ценностью, игнорируя те действия, которые недоступны вданное время

Если у вас есть несколько возможных целей, то применяется тот же принцип, за исключением того, что в этот раз вы моделируете свою функцию полезности, чтобы принять целевое обозначение в качестве дополнительного параметра, и запускаете функцию оценки несколько разпо одному на каждую цель).Вы выбираете цель с самой высокой «утилитарностью атаки».

...