В настоящее время я изучаю PPO для своей игры и получил c базовых данных. Я смотрел несколько видео на YouTube и пытался понять пару кодов, но кое-что меня смущает.
Итак, насколько я понимаю, PPO (и, возможно, оптимизация политики в целом) использует softmax в качестве функции активации чтобы получить результат как вероятность, который затем вводится в гауссово распределение. Насколько я знаю, все вероятности выхода вместе должны быть равны 1, что означает, что выполняется только одно действие. Как это переводится на то, что может потребовать нескольких действий одновременно? (Пример: нажатие двух или более кнопок одновременно в игре)
Нужно ли мне наметить все возможные действия? (Включает комбинацию)
Или я что-то пропустил и что модель может отдельно подсчитать возможность вывода? (Вероятности движения и вероятности действия оружия разные)