Question

Возникла проблема при обновлении значений q.Они стремятся к бесконечности.Приведенный ниже код показывает функцию обновления в соответствии с уравнением Беллмана :

q[board][action] = q[board][action] + lr *
immediate_reward + (discount * best_q_value_new_board - immediate_reward)

По некоторым причинам значения растут бесконечно большими.Я не могу понять, почему это так.

Любой вклад приветствуется!

Спасибо

Странное поведение функции обновления в Q Learning

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Странное поведение функции обновления в Q Learning

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы