Краткий ответ - Да. ELBO на самом деле является гладкой целевой функцией, которая является нижней границей логарифмической вероятности.
Вместо максимизации log p (x), где x - наблюдаемое изображение, мы выбираем максимизацию log p (xlz) + KL (q (zlx) ll p (z)), где z - выборка из кодера q (zlx). ). Мы делаем это, потому что легче оптимизировать ELBO, чем log p (x).
Тогда термин p (xlz) является отрицательной ошибкой восстановления - мы хотим максимизировать подобие x с учетом скрытой переменной z.
Для первого примера: p (xlz) - это гауссово распределение с дисперсией 1.
Второй пример: p (xlz) - это распределение Бернулли, поскольку цифра Mnist является черно-белой. Мы можем смоделировать каждый пиксель как яркость.
Надеюсь, это поможет!