Технически, сцена - это группа снимков , которые последовательно объединяются в одном месте. снимок - это основной описательный элемент видео, который состоит из ряда кадров, представленных с непрерывной точки зрения.
Автоматическое разделение видео на его снимки называется обнаружение границы кадра проблема, в которой основная идея заключается в определении последовательных кадров, которые формируют переход от одного кадра к другому.
Идентификация переходов обычно включает вычисление значения сходства между двумя кадрами.Это значение можно рассчитать, используя низкоуровневое изображение функции , такие как цвет, край или движение.Простая метрика подобия может быть:
- с ( f 1 , f 2 ) = сумма( i во всех положениях пикселей) (abs ( f i color ( i ) - f 2 цвет ( i ))) / N
где f1 и f2 представляют два отдельных видеокадра, а N представляет количество пикселей в этих кадрах.Это среднее пиксельное расстояние первого порядка ( Манхэттен ) между двумя кадрами.
Скажем, у вас есть видео, состоящее из кадров {f 1 , f 2 ... f M } и вы рассчитали это расстояние между соседними кадрами.Простая мера принятия решения могла бы маркировать переход от f a к f b как граница выстрела , еслис ( f a , f b ) ниже определенного порога .
Успешный детектор границы выстрела использует расстояния второго порядка (или более), такие как евклидово расстояние или коэффициент корреляции Пирсона , и использует комбинацию различных функций вместо использования только одного, скажем цвета.
Обычно движение камеры или объекта нарушает соответствие пикселей между кадрами.Использование частот низкоуровневых деталей с помощью гистограмм будет здесь излечением.
Кроме того, выполнение решений более чем в двух кадрах помогает найти плавных переходов, когда один выстрел растворяется в или заменяет другой на длительность.,Выбор группы кадров также помогает нам определить ложных переходов, вызванных световыми вспышками или быстродвижущимися камерами.
Для вашей проблемы, пожалуйста, начните с базовых подходов, таких как сравнение цветов RGB и откликов краев.между видеокадрами.Анализируйте свои результаты и данные вместе и попытайтесь адаптировать новые функции , метрики расстояния и методы принятия решений для повышения производительности.
Лучший способ сегментирования видео на кадры зависит от ваших данных.Подходы машинного обучения, такие как вероятностное моделирование переходов кадров с гауссовыми моделями смесей или классификация с помощью машин опорных векторов , как ожидается, будут работать лучше, чем выбранные вручнуюпороги.Однако важно, чтобы вы изучили основы, прежде чем эффективно выбирать входные функции.
Достаточно автоматически найти границы кадров, чтобы разделить видео на значимые части.Разделение вашего видео на сцены , с другой стороны, считается более сложной семантической проблемой.Тем не менее, сегментация выстрелов является первым шагом к этому.