Question

Итак, я хочу научиться подкреплению, используя несколько примеров.Я написал игру 2048, но я не знаю, правильно ли я ее тренирую.Итак, как я понимаю, я должен создать нейронную сеть.Я создал 16 входов для каждого номера.Затем скрываются слои 12х8 и 4 выхода для ходов (вверх, вправо, вниз, влево).(Линейная функция активации функции для слоя lat и relu для отдыха) Затем я запускаю одну полную игру и сохраняю все ходы и награды (0 - ничего не произошло, -2 - ходы, которые не поменялись, -1, когда этот ход проиграл, иколичество набранных очков при ходу делай что-нибудь).Когда игра закончилась, я сделал алгоритм обратного распространения с последнего хода.Я делаю это правильно или как?И я знаю, что есть такие библиотеки, как tenorflow, но я хочу все это понять.

R.F. Nelson · Answer 1 · 21 мая 2018

Я бы посоветовался с этим репозиторием GitHub , так как он выполняет именно то, что вы пытаетесь сделать.

Вы действительно можете использовать вышеуказанное решение в прямом эфире здесь .

Если вы действительно хотите изучить основы того, как все это работает, это выходит за рамки того, что может обеспечить отдельный пост в StackOverflow.

Понимание обучения подкреплению на примере игры 2048

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Понимание обучения подкреплению на примере игры 2048

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы