Q-Learn AI для Connect Four - PullRequest
       4

Q-Learn AI для Connect Four

0 голосов
/ 31 марта 2020

Я пытаюсь решить Connect Four (с разными размерами) с помощью алгоритма q-learn.

Есть ли какие-нибудь впечатления, какие значения мне следует использовать?

  • alpha (обучение скорость)
  • yamma (коэффициент дисконтирования)
  • награда победа
  • награда свободная
  • награда дуче
  • награда жива (если игра не закончится после этого переезда).

Сейчас я использую:

  • альфа (скорость обучения) = 0,8
  • ямма (коэффициент дисконтирования) = 0.5
  • награда победа = 10000
  • награда потеря = -10000000
  • награда duce = -100
  • награда жива (если игра не закончилась после этот ход) = -3

благодарен за любые мысли!

...