Question

Я пытаюсь анализировать аудио и визуальные особенности в тандеме.Мои аудио-речевые функции - это высокочастотные коэффициенты кепстра, сэмплированные при 100 кадрах в секунду с использованием Hidden Markov Model Toolkit.Мои визуальные особенности взяты из программы отслеживания губ, которую я создал, и частота дискретизации составляет 29,97 кадров в секунду.

Я знаю, что мне нужно интерполировать свои визуальные функции, чтобы частота дискретизации также составляла 100 кадров в секунду, но я не могухорошее объяснение или учебник о том, как сделать это онлайн.Большая часть помощи, которую я нашел, исходит от сообщества по распознаванию речи, которое предполагает знание интерполяции от имени читателя, то есть большинство покрывает этот шаг простой «интерполяцией визуальных функций так, чтобы частота дискретизации равнялась 100 кадрам в секунду».

Может кто-нибудь направить меня в правильном направлении?

Спасибо за миллион

hotpaw2 · Answer 1 · 22 сентября 2011

Поскольку движение лица не фильтруется нижними частотами до захвата видео, большинство классических методов интерполяции DSP могут не применяться. Вы также можете попробовать линейную интерполяцию векторов объектов, чтобы получить от одного набора временных точек до набора в другом наборе временных точек. Просто выберите 2 ближайших видеокадра и интерполируйте их, чтобы получить больше точек данных между ними. Вы также можете попробовать сплайн-интерполяцию, если ваш алгоритм отслеживания лица измеряет ускорения при движении лица.

Простая техника для повышения / интерполяции видео функций?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Простая техника для повышения / интерполяции видео функций?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы