Итак, я хочу научиться подкреплению, используя несколько примеров.Я написал игру 2048, но я не знаю, правильно ли я ее тренирую.Итак, как я понимаю, я должен создать нейронную сеть.Я создал 16 входов для каждого номера.Затем скрываются слои 12х8 и 4 выхода для ходов (вверх, вправо, вниз, влево).(Линейная функция активации функции для слоя lat и relu для отдыха) Затем я запускаю одну полную игру и сохраняю все ходы и награды (0 - ничего не произошло, -2 - ходы, которые не поменялись, -1, когда этот ход проиграл, иколичество набранных очков при ходу делай что-нибудь).Когда игра закончилась, я сделал алгоритм обратного распространения с последнего хода.Я делаю это правильно или как?И я знаю, что есть такие библиотеки, как tenorflow, но я хочу все это понять.