Возникла проблема при обновлении значений q.Они стремятся к бесконечности.Приведенный ниже код показывает функцию обновления в соответствии с уравнением Беллмана :
q[board][action] = q[board][action] + lr *
immediate_reward + (discount * best_q_value_new_board - immediate_reward)
По некоторым причинам значения растут бесконечно большими.Я не могу понять, почему это так.
Любой вклад приветствуется!
Спасибо