Я читаю исследовательскую работу по созданию / синтезированию видео:
MoCoGAN: декомпозиция движения и контента для генерации видео
Для оценки сгенерированных видео они использовалиметрика называется «Среднее расстояние содержимого».Я не мог найти материал в Google, связанный с этим.Кто-нибудь может объяснить, что означает «Среднее расстояние содержимого»?
Вот фрагмент из статьи
. Сначала мы вычислили средний цвет сгенерированной фигуры в каждом кадре.Каждый кадр был представлен 3-мерным вектором.ACD тогда дается средним парным расстоянием L2 средних цветовых векторов для каждого кадра.
Из этого я понял следующее:
Для каждого кадра преобразовать rgb в серый (средний цвет).Затем для последовательного кадра рассчитайте расстояние l2, т.е. сумму ((Frame1 (x, y) -Frame2 (x, y)) ^ 2) / num_pixels по всем пикселям для 1-го и 2-го кадра и аналогично для последовательных кадров.Это дает ACD.Правильно ли я понял?
Кроме того, как этот показатель представляет качество видео?Как это можно использовать для сравнения качеств разных сгенерированных видео?Вы также можете указать мне на некоторые ссылки.
Спасибо!