Обрезка изображения - запрос области интереса - PullRequest
3 голосов
/ 17 февраля 2012

У меня есть набор видео, где кто-то говорит, я создаю систему распознавания губ, поэтому мне нужно выполнить некоторую обработку изображения для определенной области изображения (нижний подбородок и губы).

Iиметь более 200 видео, каждое из которых содержит предложение.Это естественный разговор, поэтому голова постоянно двигается, поэтому губы не находятся в определенном месте.У меня возникают трудности с указанием области интереса к изображению, так как очень утомительно смотреть каждое видео и отмечать, насколько велика моя коробка, чтобы обеспечить обрезку губ в области интереса.

Мне было интересноесли бы был более простой способ проверить это, возможно, с помощью MATLAB?Я думал, что могу обрезать видео кадр за кадром и выводить изображение для каждого кадра.А потом физически пройтись по изображениям, чтобы увидеть, выходят ли губы из рамки?

1 Ответ

1 голос
/ 11 марта 2012

Мне пришлось решить аналогичную проблему, связанную с отслеживанием головы и конечностей учеников, участвующих в обсуждениях в классе на видео.Мы экспериментировали с использованием современной системы отслеживания оптического потока от Томаса Брокса ( link , см. Раздел об оптическом потоке с большим смещением.) В нашем случае у нас было около 20 терабайт видео для обработки,поэтому у нас не было выбора, кроме как использовать реализацию оптического потока кода на C ++ и GPU;Я думаю, вы также обнаружите, что Matlab невероятно медленен для анализа видео.

Оптический поток возвращает вам детальные векторы движения.Затем, если вы можете просто отметить исходную ограничивающую рамку для рта и подбородка в первом кадре видео, вы можете следовать дорожкам, заданным оптическим потоком этих пикселей, и это обычно даст вам хорошую последовательность ограничивающих рамок.Вы, вероятно, будете иметь ошибки, которые вы должны исправить, хотя.Вы могли бы написать скрипт Python, который воспроизводит последовательность ограничивающих рамок, чтобы вы могли быстро проверить наличие ошибок.

Код, который я написал для этого, написан на Python, и, вероятно, его нелегко адаптировать к вашему набору данных.или ваша проблема, но вы можете найти мой код отслеживания оптического потока на основе аффинного преобразования , связанный здесь , в части, которая называется «Отслеживание объектов с использованием плотного оптического потока».

Краткий ответв том, что это очень сложная и раздражающая проблема для исследователей зрения.Большинство людей «решают» это, размещая свои видео, кадр за кадром, на Mechanical Turk и платя человеческим работникам около 2 центов за кадр, который они анализируют.Это дает вам довольно хорошие результаты (вам все равно придется их чистить после сбора их от Mechanical Turkers), но это не очень полезно, когда у вас есть тонны видео, и вы не можете ждать, пока их достаточно, чтобы случайно проанализировать на Mechanical.Turk.

Определенно, нет никакого готового решения для аннотации в интересующей области.Вам, вероятно, придется заплатить довольно много за стороннее программное обеспечение, которое делает это автоматически.Для этого лучше всего узнать, что face.com будет заряжать вас и насколько хорошо оно будет работать.Будьте осторожны, чтобы не нарушить какие-либо соглашения о конфиденциальности исследователя с вашим набором данных, для этого или Mechanical Turk.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...