Я уже некоторое время борюсь с проблемой обучения с подкреплением, и мне нужно ваше понимание. Я сделал простую игру о том, как скатиться с горы и избегать деревьев, двигаясь влево или вправо. Моя цель - создать агента RL для этой игры. Я остановился на Deep Q Network, который, кажется, хорошо подходит для моего проекта.
Я нашел первые Keras с Tensorflow в Интернете, поэтому я использовал их в качестве своих инструментов. Моя первая реализация не сработала, но я узнал о TF-агентах и попробовал. Сработало с первого раза, агент играет на отлично. Я пытался сделать то же самое с моей собственной реализацией, но безрезультатно. Агент проходит весь путь к одной стороне экрана и ждет d ie.
Я попытался добавить приоритетное воспроизведение опыта, составные кадры, DDQN, это всегда одно и то же. Я использовал ту же функцию потерь, дизайн сети ...
Я пытался прочитать исходный код tf-агентов, но какая-то часть скрыта или для меня загадка.
Моя работа по реализации таким образом: я настраиваю свою сеть Keras, жадную политику epsilon, буфер воспроизведения и способ демонстрации опыта. Затем все oop поиграйте в игру, сохраните опыт и регулярно тренируйтесь в буфере воспроизведения. Classi c прочее.
Вы можете найти весь исходный код и более подробную информацию на моем github: https://github.com/feco/YoushiML
Я глубоко благодарю вас за ваше время.