Question

В настоящее время я изучаю PPO для своей игры и получил c базовых данных. Я смотрел несколько видео на YouTube и пытался понять пару кодов, но кое-что меня смущает.

Итак, насколько я понимаю, PPO (и, возможно, оптимизация политики в целом) использует softmax в качестве функции активации чтобы получить результат как вероятность, который затем вводится в гауссово распределение. Насколько я знаю, все вероятности выхода вместе должны быть равны 1, что означает, что выполняется только одно действие. Как это переводится на то, что может потребовать нескольких действий одновременно? (Пример: нажатие двух или более кнопок одновременно в игре)

Нужно ли мне наметить все возможные действия? (Включает комбинацию)

Или я что-то пропустил и что модель может отдельно подсчитать возможность вывода? (Вероятности движения и вероятности действия оружия разные)

MarcusRenshaw · Answer 1 · 07 мая 2020

Вы бы хотели обозначить все возможные комбинации действий, если вы конкретно хотите, чтобы два действия выполнялись в одно и то же время. На любом заданном временном шаге вы можете выбрать только одно действие из вашего выходного распределения, поэтому комбинации должны быть включены.

Однако ваш агент может научиться чередовать стрельбу и движение, но эти действия будут происходить на разных этапах.

Я запутался в том, как определять вероятности вывода и выбрать действие в Оптимизации политики

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Я запутался в том, как определять вероятности вывода и выбрать действие в Оптимизации политики

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы