В настоящее время я могу обучать систему, используя Q-Learning. Я хочу переместить его в метод Actor_Critic (A2C). Пожалуйста, не спрашивайте меня, почему для этого шага я должен.
В настоящее время я заимствую реализацию из https://github.com/higgsfield/RL-Adventure-2/blob/master/1.actor-critic.ipynb
Дело в том, что я продолжаю получать успех примерно на 50% (это в основном случайное поведение). Моя игра - длинный эпизод (50 шагов). Должен ли я распечатать награду, ценность или что? Как мне отладить это?
Вот несколько журналов:
simulation episode 2: Success, turn_count =20
loss = tensor(1763.7875)
simulation episode 3: Fail, turn_count= 42
loss = tensor(44.6923)
simulation episode 4: Fail, turn_count= 42
loss = tensor(173.5872)
simulation episode 5: Fail, turn_count= 42
loss = tensor(4034.0889)
simulation episode 6: Fail, turn_count= 42
loss = tensor(132.7567)
loss = simulation episode 7: Success, turn_count =22
loss = tensor(2099.5344)
Как общая тенденция, я заметил, что для эпизодов Успех потери имеют тенденцию быть огромными, тогда как для эпизода Сбой выходной сигнал функции потерь, как правило, невелик.