Я пытаюсь анализировать аудио и визуальные особенности в тандеме.Мои аудио-речевые функции - это высокочастотные коэффициенты кепстра, сэмплированные при 100 кадрах в секунду с использованием Hidden Markov Model Toolkit.Мои визуальные особенности взяты из программы отслеживания губ, которую я создал, и частота дискретизации составляет 29,97 кадров в секунду.
Я знаю, что мне нужно интерполировать свои визуальные функции, чтобы частота дискретизации также составляла 100 кадров в секунду, но я не могухорошее объяснение или учебник о том, как сделать это онлайн.Большая часть помощи, которую я нашел, исходит от сообщества по распознаванию речи, которое предполагает знание интерполяции от имени читателя, то есть большинство покрывает этот шаг простой «интерполяцией визуальных функций так, чтобы частота дискретизации равнялась 100 кадрам в секунду».
Может кто-нибудь направить меня в правильном направлении?
Спасибо за миллион