Как я могу выполнять действия и состояния, когда мой переход между состояниями зависит от нескольких действий одновременно? - PullRequest
0 голосов
/ 11 мая 2019

У меня есть модель, состояние которой зависит от нескольких действий;Я могу принять один параметр в качестве действия, но что если переход состояния зависит от нескольких действий?

1 Ответ

0 голосов
/ 12 мая 2019

В методах обучения с подкреплением, таких как Q-Learning , каждое изменение состояния является вероятностным и зависит от одного действия. Это используется для оценки ожидаемого вознаграждения (например, Q-значение: Q (s, a) в Q-Learning).

Если у вас нет большого количества действий, вы можете определить комбинации действий, которые могут происходить вместе, как новые действия; например если у вас есть действия a 1 и a 2 , вы можете совершить действие a 3 , который применяет эффекты обоих действий одновременно. Другая идея состоит в том, чтобы определить некую иерархию действий, в которой выше.

Вам также следует взглянуть на несколько научных работ, в которых они используют несколько действий для перехода между состояниями, как это прокомментировано в этой теме .

...