Вы заканчиваете эпизод только одной достигнутой целью, а не для полного достижения своей цели. Таким образом, ваша диаграмма выглядит грязной, она завершает эпизод слишком рано, агент не понимает его цели.
Я думаю, вы могли бы добавить несколько новых правил. - если агент отскакивает от своих шагов, он наказан - агент получит наказание, если он не возьмет все 4 куба до конца эпизода
, эпизод должен закончиться, только если агент завершит задачу забрать все 4 кубика (награда) или если агент предпринял ряд шагов, не достигнув своей цели (наказано)
Я надеюсь, что это может помочь. Я чувствую, что мой плохой Энгли sh.
___ edit 2: ___
Весьма вероятно, что ваша проблема имеет характеристики, аналогичные описанным в этом документе. (в частности, стр. 28)
https://repositorio.upct.es/bitstream/handle/10317/8094/tfg-san-est.pdf?sequence=1&isAllowed=y (Это на испанском sh, извините, но переводчик Google даст вам довольно точный перевод.)
проблема в документе идентична вашей, у агента были проблемы с углами, когда он достигает угла, он возвращается к исходной точке, что произошло только с углами.
Вы пытались изменить обстановку? Может быть ... попробуйте без стен, чтобы увидеть, действительно ли агент ищет "все" цели и go глубже в проблему.
график является наименьшим, это всего лишь представление. У вас не будет хорошего графика, если агент не выполняет свою миссию.