Включает ли видео в формате H.264 с матрицей BT.709 какие-либо настройки гаммы? - PullRequest
0 голосов
/ 24 декабря 2018

Я прочитал BT.709 спецификацию несколько раз, и вещь, которая не совсем ясна, заключается в том, должен ли закодированный поток битов H.264 фактически применить какую-либо гамма-кривую к закодированным данным?Обратите внимание на конкретное упоминание гамма-подобной формулы в спецификации BT.709.Apple предоставила примеры шейдеров OpenGL или Metal, которые считывают YUV-данные из CoreVideo, при условии, что буферы не выполняют какую-либо настройку гаммы.Значения YUV читаются и обрабатываются так, как если бы они были простыми линейными значениями.Я также изучил исходный код ffmpeg и не обнаружил никаких настроек гаммы после шага масштабирования BT.709.Затем я создал тестовое видео с двумя линейными оттенками серого 5 и 26, соответствующими уровням 2% и 10%.При преобразовании в H.264 с использованием ffmpeg и iMovie выходные значения BT.709 равны (YCbCr) (20 128 128) и (38 128 128), и эти значения точно соответствуют выходным данным матрицы преобразования BT.709 без какой-либо гаммыAdjustment.

Большой фон по этой теме можно найти на Quicktime Gamma Bug .Кажется, что некоторые исторические проблемы с кодировщиками Quicktime и Adobe неправильно выполняли различные настройки гаммы, и в результате видеопотоки выглядели ужасно на разных проигрывателях.Это действительно сбивает с толку, потому что если вы сравните с sRGB , это ясно показывает, как применить гамма-кодирование, а затем декодировать его для преобразования между sRGB и линейным.Почему BT.709 так подробно описывает кривую регулировки гаммы такого же типа, если регулировка гаммы не выполняется после шага матрицы при создании потока данных h.264?Все цветовые шаги в потоке h.264 должны быть закодированы как прямые линейные (гамма 1.0) значения?

В случае, если конкретный пример ввода прояснит ситуацию, я прилагаю 3 изображения с цветными полосами,точные значения разных цветов могут отображаться в редакторе изображений с этими файлами изображений.

Это первое изображение находится в цветовом пространстве sRGB и помечено как sRGB.

sRGB colorspace

Это второе изображение было преобразовано в линейное цветовое пространство RGB и помечено линейным профилем RGB.

linear RGB colorspace

Этотретье изображение было преобразовано в уровни профиля REC.709 с помощью Rec709-elle-V4-rec709.icc из elles_icc_profiles .Похоже, это то, что нужно сделать для имитации гаммы «камеры», как описано в BT.709.

BT.709 colorspace ICC

Обратите внимание, как значение sRGB внижний правый угол (0x555555) становится линейным RGB (0x171717), а значение, закодированное с помощью гамма-кода BT.709, становится (0x464646).Что неясно, так это то, должен ли я передавать линейное значение RGB в ffmpeg или если я должен передавать уже кодированное значение BT.709, которое затем необходимо будет декодировать на клиенте до шага матрицы линейного преобразования, чтобы вернуться к RGB.

Обновление:

На основании полученных отзывов я обновил свою реализацию на основе C и металлический шейдер и загрузил ее на github в качестве примера проекта для iOS MetalBT709Decoder .

Кодирование нормализованного линейного значения RGB реализовано так:

static inline
int BT709_convertLinearRGBToYCbCr(
                            float Rn,
                            float Gn,
                            float Bn,
                            int *YPtr,
                            int *CbPtr,
                            int *CrPtr,
                            int applyGammaMap)
{
  // Gamma adjustment to non-linear value

  if (applyGammaMap) {
    Rn = BT709_linearNormToNonLinear(Rn);
    Gn = BT709_linearNormToNonLinear(Gn);
    Bn = BT709_linearNormToNonLinear(Bn);
  }

  // https://www.itu.int/dms_pubrec/itu-r/rec/bt/R-REC-BT.709-6-201506-I!!PDF-E.pdf

  float Ey = (Kr * Rn) + (Kg * Gn) + (Kb * Bn);
  float Eb = (Bn - Ey) / Eb_minus_Ey_Range;
  float Er = (Rn - Ey) / Er_minus_Ey_Range;

  // Quant Y to range [16, 235] (inclusive 219 values)
  // Quant Eb, Er to range [16, 240] (inclusive 224 values, centered at 128)

  float AdjEy = (Ey * (YMax-YMin)) + 16;
  float AdjEb = (Eb * (UVMax-UVMin)) + 128;
  float AdjEr = (Er * (UVMax-UVMin)) + 128;

  *YPtr = (int) round(AdjEy);
  *CbPtr = (int) round(AdjEb);
  *CrPtr = (int) round(AdjEr);

  return 0;
}

Декодирование из YCbCr в линейный RGB реализовано так:

static inline
int BT709_convertYCbCrToLinearRGB(
                             int Y,
                             int Cb,
                             int Cr,
                             float *RPtr,
                             float *GPtr,
                             float *BPtr,
                             int applyGammaMap)
{
  // https://en.wikipedia.org/wiki/YCbCr#ITU-R_BT.709_conversion
  // http://www.niwa.nu/2013/05/understanding-yuv-values/

  // Normalize Y to range [0 255]
  //
  // Note that the matrix multiply will adjust
  // this byte normalized range to account for
  // the limited range [16 235]

  float Yn = (Y - 16) * (1.0f / 255.0f);

  // Normalize Cb and CR with zero at 128 and range [0 255]
  // Note that matrix will adjust to limited range [16 240]

  float Cbn = (Cb - 128) * (1.0f / 255.0f);
  float Crn = (Cr - 128) * (1.0f / 255.0f);

  const float YScale = 255.0f / (YMax-YMin);
  const float UVScale = 255.0f / (UVMax-UVMin);

  const
  float BT709Mat[] = {
    YScale,   0.000f,  (UVScale * Er_minus_Ey_Range),
    YScale, (-1.0f * UVScale * Eb_minus_Ey_Range * Kb_over_Kg),  (-1.0f * UVScale * Er_minus_Ey_Range * Kr_over_Kg),
    YScale, (UVScale * Eb_minus_Ey_Range),  0.000f,
  };

  // Matrix multiply operation
  //
  // rgb = BT709Mat * YCbCr

  // Convert input Y, Cb, Cr to normalized float values

  float Rn = (Yn * BT709Mat[0]) + (Cbn * BT709Mat[1]) + (Crn * BT709Mat[2]);
  float Gn = (Yn * BT709Mat[3]) + (Cbn * BT709Mat[4]) + (Crn * BT709Mat[5]);
  float Bn = (Yn * BT709Mat[6]) + (Cbn * BT709Mat[7]) + (Crn * BT709Mat[8]);

  // Saturate normalzied linear (R G B) to range [0.0, 1.0]

  Rn = saturatef(Rn);
  Gn = saturatef(Gn);
  Bn = saturatef(Bn);

  // Gamma adjustment for RGB components after matrix transform

  if (applyGammaMap) {
    Rn = BT709_nonLinearNormToLinear(Rn);
    Gn = BT709_nonLinearNormToLinear(Gn);
    Bn = BT709_nonLinearNormToLinear(Bn);
  }

  *RPtr = Rn;
  *GPtr = Gn;
  *BPtr = Bn;

  return 0;
}

Я считаю, что эта логика реализована правильно, но мне очень трудно проверить результаты.Когда я генерирую файл .m4v, который содержит значения цвета, скорректированные по гамме (osxcolor_test_image_24bit_BT709.m4v), результат получается ожидаемым.Но тестовый пример, подобный (bars_709_Frame01.m4v), который я обнаружил здесь , похоже, не работает, так как значения цветовой шкалы кажутся закодированными как линейные (без регулировки гаммы).

ДляТестовый шаблон SMPTE, уровень градации 0,75 является линейным RGB (191 191 191), если этот RGB кодируется без регулировки гаммы, как (Y Cb Cr) (180 128 128), или если значение в битовом потоке отображается как отрегулированное значение гаммы (YCb Cr) (206 128 128)?

(продолжение)После дополнительных исследований этой проблемы гаммы стало ясно, что Apple фактически занимается AVFoundation с использованием гамма-функции 1.961.Это имеет место при кодировании с помощью AVAssetWriterInputPixelBufferAdaptor, при использовании vImage или с API-интерфейсами CoreVideo.Эта кусочная гамма-функция определяется следующим образом:

#define APPLE_GAMMA_196 (1.960938f)

static inline
float Apple196_nonLinearNormToLinear(float normV) {
  const float xIntercept = 0.05583828f;

  if (normV < xIntercept) {
    normV *= (1.0f / 16.0f);
  } else {
    const float gamma = APPLE_GAMMA_196;
    normV = pow(normV, gamma);
  }

  return normV;
}

static inline
float Apple196_linearNormToNonLinear(float normV) {
  const float yIntercept = 0.00349f;

  if (normV < yIntercept) {
    normV *= 16.0f;
  } else {
    const float gamma = 1.0f / APPLE_GAMMA_196;
    normV = pow(normV, gamma);
  }

  return normV;
}

1 Ответ

0 голосов
/ 04 января 2019

Ваш первоначальный вопрос: включает ли кодированное видео H.264 с матрицей BT.709 какую-либо настройку гаммы?

Кодированное видео содержит только настройку гаммы - если вы подаете значения, отрегулированные гаммой кодера.

Кодер H.264 не заботится о характеристиках передачи.Так что если вы сжимаете линейный, а затем распаковываете - вы получите линейныйПоэтому, если вы сжимаете с помощью гаммы, а затем распаковываете - вы получите гамму.

Или если ваши биты закодированы с помощью Rec.709 функция передачи - кодер не будет изменять гамму.

Но вы можете указать характеристику передачи в потоке H.264 в качестве метаданных.(Рек. МСЭ-Т H.264 (04/2017) E.1.1 Синтаксис параметров VUI).Таким образом, кодированные потоки несут информацию о цветовом пространстве, но не используются при кодировании или декодировании.

Я бы предположил, что 8-битное видео всегда содержит нелинейную передаточную функцию.В противном случае вы бы использовали 8 бит довольно неразумно.

Если вы конвертируете в линейный для создания эффектов и композиции - я бы порекомендовал увеличить битовую глубину или линеаризовать в поплавки.

Цветовое пространство состоитпраймериз, передаточная функция и матричные коэффициенты.Регулировка гаммы кодируется в передаточной функции (а не в матрице).

...