Я хотел бы написать новый train_op для тестирования нового алгоритма обучения без использования градиента или потерь, который немного похож на алгоритм UCB в бандите. Как я могу определить такой train_op, чтобы добавить его в мой пользовательский оценщик?
Большое спасибо!