Как предполагается использовать train_on_batch? Я думал, что это должно было быть так, как указано в документации Keras:
train_on_batch (object, x, y, class_weight = NULL, sample_weight = NULL),
, но здесь есть код trpo Пэта Коади https://github.com/pat-coady/trpo,
его реализация выглядит как train_on_batch ([наблюдает, действия, преимущества, old_means, old_logvars, old_logp])