спасибо за вопрос. Ваше подозрение верно, хотя и плохо документировано. См. Первый пример здесь , где потери суммируются для получения термина KL, а логарифмический термин правдоподобия вычисляется отдельно и объединяется для формирования ELBO.
Здесь вы видите добавляемую потерю здесь , которая, после нескольких косвенных указаний, показывает, что используется {kernel,bias}_divergence_fn
, и что в свою очередь по умолчанию принимает значение lambda
, которое вызывает tfd.kl_divergence(q, p)
.
Надеюсь, это поможет!