Question

Я пишу нейронную сеть, которая научилась играть в игру "connect4" Репозиторий Я использую CNN и Q-Learning. Другая сложность заключается в том, что агент не может менять Q-функцию после каждого хода. Необходимо запомнить ход и только после сыгранной игры сменить Q-функцию. Но возникают странности, потому что после 1-3 эпох все ходы становятся одинаковыми. Это подтверждается функциейvalu ().

Журналы:

Epoch 0/10000
Right ANS=410, Real=[8, 8, 8]
Epoch 0/10000
Right ANS=410, Real=[8, 8, 8]
Epoch 100/10000
Right ANS=410, Real=[8, 8, 8]
...
Epoch 9900/10000
Right ANS=410, Real=[8, 8, 8]

Структура:

Conv2D(input_layer, filters=32)
Flatten()
Dense(60)
Dense(30)
Dense(10) -- output, reward for every action

Даже если я попытаюсь изменить структуру нейронной сети, ничего не произойдет.

почему это происходит?

Почему нейронная сеть перестает учиться?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Почему нейронная сеть перестает учиться?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы