Странное поведение функции обновления в Q Learning - PullRequest
0 голосов
/ 18 апреля 2019

Возникла проблема при обновлении значений q.Они стремятся к бесконечности.Приведенный ниже код показывает функцию обновления в соответствии с уравнением Беллмана enter image description here:

q[board][action] = q[board][action] + lr *
immediate_reward + (discount * best_q_value_new_board - immediate_reward)

По некоторым причинам значения растут бесконечно большими.Я не могу понять, почему это так.

Любой вклад приветствуется!

Спасибо

...