Тренировочная стабильность Вассерштейна ГАН - PullRequest
7 голосов
/ 06 апреля 2020

Я работаю над проектом с GAN Wasserstein и, более конкретно, над реализацией улучшенной версии GAN Wasserstein. У меня есть два теоретических вопроса о WGAN относительно их стабильности и процесса обучения. Во-первых, результат функции потерь общеизвестно коррелирует с качеством результата сгенерированных выборок (что указано здесь) . Есть ли какая-нибудь дополнительная библиография, поддерживающая этот аргумент?

Во-вторых, во время экспериментальной фазы я заметил, что обучение моей архитектуре с использованием wGAN намного быстрее, чем с использованием простой версии GAN. Это обычное поведение? Есть ли какой-то литературный анализ по этому поводу?

Кроме того, один вопрос о непрерывных функциях, которые гарантированы с помощью потери Вассерштейна. У меня есть некоторые проблемы с пониманием этой концепции на практике, что это означает, что обычная потеря GAN не является непрерывной функцией?

1 Ответ

4 голосов
/ 02 мая 2020
  1. Вы можете проверить Начальный счет и Начальное расстояние Фреше на данный момент. А также здесь . Проблема заключается в том, что в GAN, не имеющих унифицированных целевых функций (есть две сети), нет согласованного способа оценки и сравнения моделей GAN. Вместо этого люди разрабатывают метрики, относящиеся к распределению изображений и распределениям генераторов.

  2. wGAN может быть быстрее благодаря более стабильным процедурам обучения, в отличие от ванильного GAN (Wasserstein metri c, отсечение веса и штраф градиента (если вы его используете)). Я не знаю, есть ли литературный анализ скорости, и это может не всегда иметь место для WGAN быстрее, чем простая GAN. WGAN не может найти лучший Na sh equlibirum, такой как GAN.

  3. Подумайте о двух распределениях: p и q. Если эти распределения перекрываются, т.е. их домены перекрываются, то дивергенция KL или JS дифференцируема. Проблема возникает, когда p и q не перекрываются. Как в примере с WGAN, скажем, два файла PDF в 2D-пространстве: V = (0, Z), Q = (K, Z), где K отличается от 0, а Z выбирается из равномерного распределения. Если вы попытаетесь получить производные от KL / JS расхождений этих двух PDF-файлов, вы не сможете. Это потому, что эти две дивергенции были бы двоичной индикаторной функцией (равной или нет), и мы не можем взять производную от этих функций. Однако, если мы используем потерю Вассерштейна или расстояние Земля-Двигатель, мы можем принять его, поскольку мы аппроксимируем его как расстояние между двумя точками в пространстве. Краткая история: Обычная функция потерь GAN является непрерывной, если распределения имеют перекрытие, в противном случае она дискретна.

Надеюсь, это поможет

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...