В методах обучения с подкреплением, таких как Q-Learning , каждое изменение состояния является вероятностным и зависит от одного действия. Это используется для оценки ожидаемого вознаграждения (например, Q-значение: Q (s, a) в Q-Learning).
Если у вас нет большого количества действий, вы можете определить комбинации действий, которые могут происходить вместе, как новые действия; например если у вас есть действия a 1 и a 2 , вы можете совершить действие a 3 , который применяет эффекты обоих действий одновременно.
Другая идея состоит в том, чтобы определить некую иерархию действий, в которой выше.
Вам также следует взглянуть на несколько научных работ, в которых они используют несколько действий для перехода между состояниями, как это прокомментировано в этой теме .