Интуиция вариационных целей Адаптация домена под наблюдением - PullRequest
0 голосов
/ 26 февраля 2020

Я читаю статью «Соответствующие вложения для адаптивной доменной адаптации» https://arxiv.org/pdf/1909.11651.pdf

В этой статье описывается новая структура адаптации доменов, которая работает в 3 этапа. Во-первых, он изучает распределение источников с помощью вариационного автоэнкодера, моделирующего его как смесь гауссов. Во-вторых, он изучает дискриминатор, который классифицирует, является ли выборка, прошедшая через ранее изученный кодер, из одной из смесей гауссовых классов или из немаркированного целевого распределения. В-третьих, он использует несколько помеченных целевых выборок для изучения распределения источников с использованием генератора, обученного состязательному методу с использованием дискриминатора.

Я пытаюсь понять уравнение (5), которое является целью обучения исходного вариационного автоэнкодера (первая стадия). Первое слагаемое - это дивергенция KL, которая представляет собой разницу между аппроксимированным распределением q и фактическим распределением p, смоделированным со средним и компонентом дисперсии. С двумя другими терминами я менее уверен. Я предполагаю, что вторым компонентом является ошибка восстановления между входом и выходом из автоматического кодера, в то время как третий компонент - это потеря кросс-энтропийной метки между значениями пространства признаков и фактической меткой.

enter image description here

В оптимизация источника статья описывает второй термин как: «Второй член можно оптимизировать, вычисляя ожидание градиентов, используя трюк репараметризации», что делает это смотреть в коде? Я предполагаю:

  1. Взять образец X, pu sh через энкодер, чтобы получить приблизительное среднее значение и дисперсию,
  2. Получить коэффициент шума из 0 среднего значения и 1 дисперсии распределение
  3. Get (репараметризация) z = (среднее + дисперсия) * шум
  4. Разобрать через декодер и получить X_ {реконструированный}
  5. Теперь сделайте кросс-энтропийную потерю между X_ {реконструированный} и X

Третий термин определен как: «Третий дискриминантный термин может быть тривиально оптимизирован путем минимизации потерь от перекрестной энтропии между реальными метками и прогнозируемыми метками, как оценивается функцией прогнозирования .» опять же, что это выглядит в коде? Я предполагаю:

  1. Взять образец X, pu sh через энкодер, чтобы получить приблизительное среднее значение и дисперсию,
  2. Получить коэффициент шума из 0 среднего значения и 1 дисперсии распределение
  3. Get (репараметризация) z = (среднее + дисперсия) * noise
  4. теперь принимает z и выполняет кросс-энтропийные потери между значениями в векторе z и фактической векторизованной меткой y_s для этого образца

Я не уверен насчет шага 4. В документе предиктивная функция определяется как

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...