Keras Укрепление обучения - PullRequest
0 голосов
/ 28 апреля 2020

Я пытаюсь разработать шахматный движок AlphaZero, используя керас и обучение с подкреплением. Я играю в определенное количество игр и сохраняю данные из этих игр для дальнейшего изучения. Когда самоигра закончится, я хочу обучить свою модель этим данным. Мой вопрос: подхожу ли я к модели, как в других подходах:

model.compile(optimizer=opt, loss=losses)
model.fit(x, y, batch_size=batch_size, epochs=epochs)

или в обучении с подкреплением это выглядит иначе?

...