Проблема в понимании того, как цвета применяются к каждому пикселю - PullRequest
3 голосов
/ 08 января 2020

Я новичок в распознавании действий и во всем, что касается обработки изображений. Я изучаю статью об обработке изображений. Речь идет о распознавании действий на основе оценки позы человека. Вот краткое описание того, как это работает:

Сначала мы запускаем современную систему оценки позы человека [4] в каждом кадре и получаем тепловые карты для каждого человеческого сустава. Эти тепловые карты кодируют вероятности каждого пикселя, чтобы содержать конкретное соединение. Мы раскрашиваем эти тепловые карты, используя цвет, который зависит от относительного времени кадра в видеоклипе. Для каждого соединения мы суммируем раскрашенные тепловые карты по всем кадрам, чтобы получить представление PoTion для всего видеоклипа.

То есть для каждого соединения j в кадре t , он извлекает тепловую карту H ^ t_j [x, y], которая является вероятностью пикселя (x, y), содержащего соединение j в кадре t. Разрешение этой тепловой карты обозначено W * H.

Мой первый вопрос: что такое тепловая карта? Я хотел убедиться, является ли тепловая карта матрицей вероятности, в которой, например, элемент в (1,1) содержит число, которое является индикатором вероятности того, что (1,1) пиксель может содержать соединение.

На следующем шаге эта тепловая карта раскрашивается с помощью C каналов, которые C показывают количество цветов для визуализации каждого пикселя. Здесь идея состоит в том, чтобы использовать тот же цвет для совместных тепловых карт рамы.

Мы начнем с представления предложенной схемы окраски для 2 каналов (C = 2). Для визуализации мы можем, например, использовать красный и зеленый цвета для каналов 1 и 2. Основная идея состоит в том, чтобы закрасить первый кадр красным, последний - зеленым, а средний - равной пропорцией (50%) зеленого и красного. , Точная пропорция красного и зеленого является линейной функцией относительного времени t, т.е. t − 1 / T − 1, см. Рисунок 2 (слева). Для C = 2 имеем o (t) = (t − 1 / T − 1, 1– (t − 1 / T − 1). Раскрашенная тепловая карта соединения j для пикселя (x, y) и канал c во время t задается как:

equation

И здесь это цифра 2, которая упоминается в контексте:

pic

Моя проблема в том, что я не могу понять, является ли это уравнение (o (t) = (t -1 / T-1, 1- (t-1 / T-1)) представляет степень одного цвета (т. Е. Красного) в кадре или показывает соотношение обоих этих цветов. Если он используется для каждого цвета канал отдельно, что означает o_red (t) = (1/6, 5/6), когда число кадров (T) равно 7?

или если оно используется для обоих каналов, так как статья говорит, что первый кадр окрашен в красный цвет, а последний - в зеленый, как мы можем интерпретировать o (1) = (0,1), если первый элемент указывает пропорцию красного, а второй - долю зеленого? как я понимаю это значит первая фра меня окрашивают в зеленый цвет, а не в красный!

1 Ответ

2 голосов
/ 11 января 2020

В этой концепции существует тонкая взаимосвязь между временем и позициями пикселей.

Насколько я знаю: Этот вид тепловой карты предназначен для вовлечения времени в ваше изображение. Цель состоит в том, чтобы показать движение движущегося объекта, захваченного видео, только в одном изображении, чтобы каждый пиксель изображения, который связан с фиксированными (неподвижными) объектами сцены (например, фоновыми пикселями), был ноль (черный). Напротив, если в видео движущийся объект проходит с позиции пикселя, соответствующий пиксель в изображении будет разноцветным, и его цвет зависит от количества (времени) кадра, который имеет движущийся объект было замечено в пикселе.

Например, рассмотрим, у нас есть полностью черная завеса перед камерой, и мы снимаем. Мы получаем 1-секундное видео, которое сделано из 10 кадров. В первый момент (кадр 1) на сцену выходит очень маленький белый шарик, который попадает в пиксель (1,1) в кадре 1. Затем во второй кадр этот маленький шарик попадает в пиксель (1,2), и скоро. В конце, когда мы прекращаем съемку в кадре 10, шарик будет виден в пикселе (1,10). Теперь у нас есть 10 кадров, один из которых имеет белый пиксель в другом положении, и мы хотим показать весь процесс только на одном изображении, поэтому 10 пикселей этого изображения будут красочными (пиксели: (1,1), (1 , 2), (1,3), ..., (1,10)) и другие пиксели являются черными.

С формулой, которую вы упомянули, цвет каждого пикселя вычисляется в соответствии с номер кадра (который был пойман мячом):

T=10 # 10 frames

pixel (1,1) got the white ball at frame 1 so its color would be ((0/9),1-(0/9)) which means the green channel has a zero value in that pixels and the red channel has 1 value so this pixel looks completely red.

pixel (1,2) got the white ball at frame 2 so its color would be (1/9 , 8/9), and  this pixels is more red than green.

... # continue so on for other 7 pixels

pixel (1,10) got the white ball at frame 2 so its color would be (1 , 0), and  this pixels is completely green.

Теперь, если вы посмотрите на изображение, вы увидите красочную линию длиной 10 пикселей, которая в начале красная, и ее цвет постепенно меняется на зеленый по мере приближения к концу (10-й пиксель). WHICH означает, что шарик переместился с пикселя один на пиксель 10 в течение этого 1-секундного видео.

(Если мне неясно в любой точке объяснения, пожалуйста, прокомментируйте, и я уточню)

...