Я пытаюсь разработать шахматный движок AlphaZero, используя керас и обучение с подкреплением. Я играю в определенное количество игр и сохраняю данные из этих игр для дальнейшего изучения. Когда самоигра закончится, я хочу обучить свою модель этим данным. Мой вопрос: подхожу ли я к модели, как в других подходах:
model.compile(optimizer=opt, loss=losses)
model.fit(x, y, batch_size=batch_size, epochs=epochs)
или в обучении с подкреплением это выглядит иначе?