Question

Я недавно работаю над использованием CMH sphinx4 для транскрипции и, в конечном счете, принудительного выравнивания, то есть выравнивания аудио с его транскриптом.

Я нашел проект под названием AutoCap , который в основном делал то, что я хотел разработать. Итак, я установил его, но он не работал. Я попытался настроить его, но все, что я получил, было неправильными метками времени.

Итак, я подумал об использовании sphinx4 и сам попробовал. Я успешно расшифровал файл wav с помощью файла Transcriber.jar в Sphinx. Но я не мог заставить его работать на аудио с нецифровыми данными. readme состояния страниц « люди, которые хотят транскрибировать нецифровые данные, должны изменить файл config.xml, чтобы использовать правильную грамматику, языковую модель и лингвиста, чтобы сделать это» Итак, кто-нибудь может мне помочь с одним из этих вопросов:

AutoCap
Использование Sphinx4 для расшифровки нецифровых данных
Принудительное выравнивание

Спасибо.

Nikolay Shmyrev · Answer 1 · 13 августа 2011

Существует специальный проект, посвященный выравниванию речи и текста.Это не тривиальная задача.Разработка идет в отдельной ветке sphinx4.Вы можете найти некоторые детали здесь

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

Если у вас есть какие-либо вопросы по этому проекту, вы можете задать их на форуме sphinx4

http://sourceforge.net/projects/cmusphinx/forums/forum/382337

Raveesh Sharma · Answer 2 · 03 сентября 2011

В настоящее время я работаю над той же проблемой, то есть расшифровываю нецифровые данные. Я кратко рассмотрел документацию по руководству для программистов sphinx 4 и использовал языковые модели, акустические модели и грамматику JSGF, как это было предложено. однако полученный ответ был не на должном уровне. Я считаю, что простого изменения параметров или изменений только в файле config.xml будет недостаточно. Я думаю, что нам понадобится собственный алгоритм, чтобы идти в ногу со сфинксом 4, который может улучшить распознавание речи. Со своей стороны ... я использовал lextreeliguist, JSGFGrammar и модель языка триграмм. Но ответ был не велик. возможно, потому что аудио вход был не совсем американский английский. Буду работать над этим немного больше .. и дам вам знать мои результаты

Используйте CMU sphinx4 для расшифровки нецифровых данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Используйте CMU sphinx4 для расшифровки нецифровых данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы