Есть ли в tf-agent какие-то маги c или мне что-то не хватает? - PullRequest
0 голосов
/ 14 июля 2020

Я уже некоторое время борюсь с проблемой обучения с подкреплением, и мне нужно ваше понимание. Я сделал простую игру о том, как скатиться с горы и избегать деревьев, двигаясь влево или вправо. Моя цель - создать агента RL для этой игры. Я остановился на Deep Q Network, который, кажется, хорошо подходит для моего проекта.

Я нашел первые Keras с Tensorflow в Интернете, поэтому я использовал их в качестве своих инструментов. Моя первая реализация не сработала, но я узнал о TF-агентах и ​​попробовал. Сработало с первого раза, агент играет на отлично. Я пытался сделать то же самое с моей собственной реализацией, но безрезультатно. Агент проходит весь путь к одной стороне экрана и ждет d ie.

Я попытался добавить приоритетное воспроизведение опыта, составные кадры, DDQN, это всегда одно и то же. Я использовал ту же функцию потерь, дизайн сети ...

Я пытался прочитать исходный код tf-агентов, но какая-то часть скрыта или для меня загадка.

Моя работа по реализации таким образом: я настраиваю свою сеть Keras, жадную политику epsilon, буфер воспроизведения и способ демонстрации опыта. Затем все oop поиграйте в игру, сохраните опыт и регулярно тренируйтесь в буфере воспроизведения. Classi c прочее.

Вы можете найти весь исходный код и более подробную информацию на моем github: https://github.com/feco/YoushiML

Я глубоко благодарю вас за ваше время.

...