clemens 31 марта 2020 8

Q-Learn AI для Connect Four

clemens / 31 марта 2020

Я пытаюсь решить Connect Four (с разными размерами) с помощью алгоритма q-learn.

Есть ли какие-нибудь впечатления, какие значения мне следует использовать?

alpha (обучение скорость)
yamma (коэффициент дисконтирования)
награда победа
награда свободная
награда дуче
награда жива (если игра не закончится после этого переезда).

Сейчас я использую:

альфа (скорость обучения) = 0,8
ямма (коэффициент дисконтирования) = 0.5
награда победа = 10000
награда потеря = -10000000
награда duce = -100
награда жива (если игра не закончилась после этот ход) = -3

благодарен за любые мысли!

...