Я работаю над приложением python, которое предназначено для выравнивания видеоклипов в зависимости от того, что актеры говорят на экране.
Например, у меня есть сцена, в которой актеры читают диалоги из сценария. , Они делают сцену по 3 минуты 10 раз.
В настоящее время я транскрибирую то, что они говорят, используя речь в текст, но поскольку актеры постоянно читают один и тот же диалог, я хочу использовать предварительно транскрибированный диалог ( mov ie script) для более точного управления механизмом преобразования текста в текст.
Например: «Вы говорите мне, что построили машину времени из делореана?»
Речь к тексту возвращается: «Вы говорите мне, что вы строите машину времени из дневного света?»
Я должен быть в состоянии выяснить, где ошибки, и оценить правильную линию, используя оригинальный сценарий и заблокируйте все, используя скрипт mov ie.
В настоящее время я использую CMUSphinx в Python для получения моих данных STT, и он работает очень хорошо. Но у меня возникли некоторые проблемы с логикой c в этой следующей части.
Я скоро выложу некоторый код!
РЕДАКТИРОВАТЬ: Обнаружено, что искомое условие является "аудио выравниватель" и "длинный аудио выравниватель". Похоже, что это инструменты, включенные в некоторые пакеты STT. CMUSphinx, в частности, может иметь возможность сделать это встроенным. Изучение этого.