Что означает средняя дистанция контента в видео? - PullRequest
0 голосов
/ 02 марта 2019

Я читаю исследовательскую работу по созданию / синтезированию видео:
MoCoGAN: декомпозиция движения и контента для генерации видео

Для оценки сгенерированных видео они использовалиметрика называется «Среднее расстояние содержимого».Я не мог найти материал в Google, связанный с этим.Кто-нибудь может объяснить, что означает «Среднее расстояние содержимого»?

Вот фрагмент из статьи

. Сначала мы вычислили средний цвет сгенерированной фигуры в каждом кадре.Каждый кадр был представлен 3-мерным вектором.ACD тогда дается средним парным расстоянием L2 средних цветовых векторов для каждого кадра.

Из этого я понял следующее:
Для каждого кадра преобразовать rgb в серый (средний цвет).Затем для последовательного кадра рассчитайте расстояние l2, т.е. сумму ((Frame1 (x, y) -Frame2 (x, y)) ^ 2) / num_pixels по всем пикселям для 1-го и 2-го кадра и аналогично для последовательных кадров.Это дает ACD.Правильно ли я понял?

Кроме того, как этот показатель представляет качество видео?Как это можно использовать для сравнения качеств разных сгенерированных видео?Вы также можете указать мне на некоторые ссылки.

Спасибо!

1 Ответ

0 голосов
/ 30 мая 2019

С здесь

Сначала для каждого кадра нам нужно вычислить вектор, который представляет содержимое в этом кадре.Этот вектор называется вектором содержимого.Затем вычислите расстояние между векторами контента последовательных кадров и возьмите их среднее значение.Это дает среднюю дистанцию ​​содержания.

В статье рассматриваются 2 вида видео.

  1. Набор данных фигур: содержит очень простые видео движущихся фигур.Таким образом, когда вы вычисляете средний цвет как сумму значений интенсивности (RGB) каждого пикселя и усредняете его, вы получаете трехмерный вектор.Этот вектор остается неизменным независимо от пространственного расположения фигуры.Этот вектор изменяется только при изменении формы.
  2. Набор данных "Действия человека": поскольку в этих видео содержатся люди, они использовали OpenFace для получения вектора, представляющего лицо (хотя этот вектор может не представлять полный кадр).Они использовали этот вектор как представление для каждого кадра.Пока человек остается тем же в видео, этот вектор не изменится.

По сути, этот вектор представляет содержимое в кадре.Итак, найдите, насколько этот вектор контента меняется от кадра к кадру.Утверждение состоит в том, что этот вектор не должен сильно меняться, поскольку он движется по той же фигуре или выполняет какое-то действие тем же человеком.

...