У меня есть вопрос о моем собственном проекте по тестированию техники подкрепления.Сначала позвольте мне объяснить вам цель.У меня есть агент, который может выполнить 4 действия в течение 8 шагов.В конце этих восьми шагов агент может оказаться в 5 возможных состояниях победы.Цель состоит в том, чтобы найти минимальную стоимость.Чтобы получить доступ к этим 5 победам (с разным значением стоимости: 50, 50, 0, 40, 60), агент не выбирает тот же путь (как график).Синие состояния - это состояния отказа (извините за качество), и эпизод остановлен.
введите описание изображения здесь
Действительно хороший путь: DCCBBAD
Теперь мой вопрос, я не понимаю, почему в SARSA & Q-Learning (главным образом, в Q learning) агент находит путь, но не оптимальный путь после 100 000 итераций (всегда: DACBBAD / DACBBCD).Иногда, когда я снова вычисляю, агент попадает в хороший путь (DCCBBAD).Поэтому я хотел бы понять, почему агент иногда находит его, а почему нет.И есть способ посмотреть, чтобы стабилизировать моего агента?
Большое спасибо,
Tanguy