Используйте CMU sphinx4 для расшифровки нецифровых данных - PullRequest
4 голосов
/ 11 августа 2011

Я недавно работаю над использованием CMH sphinx4 для транскрипции и, в конечном счете, принудительного выравнивания, то есть выравнивания аудио с его транскриптом.

Я нашел проект под названием AutoCap , который в основном делал то, что я хотел разработать. Итак, я установил его, но он не работал. Я попытался настроить его, но все, что я получил, было неправильными метками времени.

Итак, я подумал об использовании sphinx4 и сам попробовал. Я успешно расшифровал файл wav с помощью файла Transcriber.jar в Sphinx. Но я не мог заставить его работать на аудио с нецифровыми данными. readme состояния страниц « люди, которые хотят транскрибировать нецифровые данные, должны изменить файл config.xml, чтобы использовать правильную грамматику, языковую модель и лингвиста, чтобы сделать это» Итак, кто-нибудь может мне помочь с одним из этих вопросов:

  • AutoCap
  • Использование Sphinx4 для расшифровки нецифровых данных
  • Принудительное выравнивание

Спасибо.

Ответы [ 2 ]

2 голосов
/ 13 августа 2011

Существует специальный проект, посвященный выравниванию речи и текста.Это не тривиальная задача.Разработка идет в отдельной ветке sphinx4.Вы можете найти некоторые детали здесь

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

Если у вас есть какие-либо вопросы по этому проекту, вы можете задать их на форуме sphinx4

http://sourceforge.net/projects/cmusphinx/forums/forum/382337

0 голосов
/ 03 сентября 2011

В настоящее время я работаю над той же проблемой, то есть расшифровываю нецифровые данные. Я кратко рассмотрел документацию по руководству для программистов sphinx 4 и использовал языковые модели, акустические модели и грамматику JSGF, как это было предложено. однако полученный ответ был не на должном уровне. Я считаю, что простого изменения параметров или изменений только в файле config.xml будет недостаточно. Я думаю, что нам понадобится собственный алгоритм, чтобы идти в ногу со сфинксом 4, который может улучшить распознавание речи. Со своей стороны ... я использовал lextreeliguist, JSGFGrammar и модель языка триграмм. Но ответ был не велик. возможно, потому что аудио вход был не совсем американский английский. Буду работать над этим немного больше .. и дам вам знать мои результаты

...