Почему нейронная сеть перестает учиться? - PullRequest
0 голосов
/ 21 апреля 2019

Я пишу нейронную сеть, которая научилась играть в игру "connect4" Репозиторий Я использую CNN и Q-Learning. Другая сложность заключается в том, что агент не может менять Q-функцию после каждого хода. Необходимо запомнить ход и только после сыгранной игры сменить Q-функцию. Но возникают странности, потому что после 1-3 эпох все ходы становятся одинаковыми. Это подтверждается функциейvalu ().

Журналы:

Epoch 0/10000
Right ANS=410, Real=[8, 8, 8]
Epoch 0/10000
Right ANS=410, Real=[8, 8, 8]
Epoch 100/10000
Right ANS=410, Real=[8, 8, 8]
...
Epoch 9900/10000
Right ANS=410, Real=[8, 8, 8]

Структура:

Conv2D(input_layer, filters=32)
Flatten()
Dense(60)
Dense(30)
Dense(10) -- output, reward for every action 

Даже если я попытаюсь изменить структуру нейронной сети, ничего не произойдет.

почему это происходит?

...