Возможно, вы слышали о Саттон-Барто книге о подкреплении-обучении-введении .В этой книге вы найдете множество примеров: Q
обучения с использованием table
, а также с neural-network
.
. Также есть сравнение между многими другими алгоритмами, такими как SARSA, TD, Q,value-function и т. д. В этой ссылке вы найдете хранилище кода, в котором есть решение практически всех проблем из книги.
Не стесняйтесь задавать вопросы.