Я пишу нейронную сеть, которая научилась играть в игру "connect4"
Репозиторий
Я использую CNN и Q-Learning. Другая сложность заключается в том, что агент не может менять Q-функцию после каждого хода. Необходимо запомнить ход и только после сыгранной игры сменить Q-функцию.
Но возникают странности, потому что после 1-3 эпох все ходы становятся одинаковыми.
Это подтверждается функциейvalu ().
Журналы:
Epoch 0/10000
Right ANS=410, Real=[8, 8, 8]
Epoch 0/10000
Right ANS=410, Real=[8, 8, 8]
Epoch 100/10000
Right ANS=410, Real=[8, 8, 8]
...
Epoch 9900/10000
Right ANS=410, Real=[8, 8, 8]
Структура:
Conv2D(input_layer, filters=32)
Flatten()
Dense(60)
Dense(30)
Dense(10) -- output, reward for every action
Даже если я попытаюсь изменить структуру нейронной сети, ничего не произойдет.
почему это происходит?