Я пытаюсь решить Connect Four (с разными размерами) с помощью алгоритма q-learn.
Есть ли какие-нибудь впечатления, какие значения мне следует использовать?
- alpha (обучение скорость)
- yamma (коэффициент дисконтирования)
- награда победа
- награда свободная
- награда дуче
- награда жива (если игра не закончится после этого переезда).
Сейчас я использую:
- альфа (скорость обучения) = 0,8
- ямма (коэффициент дисконтирования) = 0.5
- награда победа = 10000
- награда потеря = -10000000
- награда duce = -100
- награда жива (если игра не закончилась после этот ход) = -3
благодарен за любые мысли!