Question

В учебном пособии по VAE kl-расхождение двух нормальных распределений определяется как:

И во многих кодах, таких как здесь , здесь и здесь , код реализован как:

 KL_loss = -0.5 * torch.sum(1 + logv - mean.pow(2) - logv.exp())

или

def latent_loss(z_mean, z_stddev):
    mean_sq = z_mean * z_mean
    stddev_sq = z_stddev * z_stddev
    return 0.5 * torch.mean(mean_sq + stddev_sq - torch.log(stddev_sq) - 1)

Как они связаны? почему в коде нет "tr" или ".transpose ()"?

jodag · Answer 1 · 04 мая 2020

Выражения в размещенном вами коде предполагают, что X является некоррелированной многовариантной гауссовской случайной величиной. Это очевидно по отсутствию перекрестных членов в детерминанте ковариационной матрицы. Поэтому средний вектор и ковариационная матрица имеют вид

Используя это, мы можем быстро получить следующие эквивалентные представления для компонентов исходного выражения

Подстановка их обратно в исходное выражение дает

Как KL-дивергенция в коде pytorch связана с формулой?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как KL-дивергенция в коде pytorch связана с формулой?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы