Как использовать CMU Sphinx 4 для речи в текст с английскими моделями voxforge - PullRequest
10 голосов
/ 31 декабря 2011

Я пытаюсь понять, как использовать sphinx4 или pocketsphinx с английской моделью voxforge, но я не могу заставить ее работать. Я пытался читать страницы документов (например, http://cmusphinx.sourceforge.net/sphinx4/doc/UsingSphinxTrainModels.html), но это мне не помогает.

Что мне нужно, так это исполняемый файл, в котором я могу указать, какую модель использовать и какой аудиофайл использовать в качестве источника, и распечатать исполняемый файл, поэтому лучше всего предположить, что говорит голос на записи.

Мне повезло с: pocketsphinx_continuous -infile recording.wav 2> / dev / null

Но он прерывается до того, как будет полностью расшифрован аудиофайл, и модель по умолчанию имеет несколько слов, чтобы создать читаемый текст из аудио.

Я скомпилировал и протестировал демонстрации в пакете с исходным кодом sphinx4, но все примеры, похоже, содержат несколько слов и нуждаются в модели, похожей на voxforge, чтобы быть полезной для меня.

Как мне это настроить?

1 Ответ

10 голосов
/ 02 января 2012

Подключить акустическую модель Voxforge очень просто.Основным документом, посвященным API, является учебник cmusphinx:

http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4

Рекомендуется прочитать его перед началом.Также обратите внимание, что рекомендуется использовать английскую стандартную акустическую модель En_US, она более точна, чем Voxforge.

Шаг за шагом вам необходимо выполнить следующие действия:

  • Загрузить voxforge model из sourceforge и распакуйте его в папку
  • Извлеките sphinx4 из github и соберите его с помощью gradle
  • Запустите TranscriberDemo
  • Goв sphinx4-samples / src / main / java / edu / cmu / sphinx / demo / transcriber, откройте Transcriber демо и отредактируйте путь акустической модели, как показано ниже.
  • Отредактируйте расположениеаудиофайл в источниках, если вам нужен другой аудиофайл
  • Запустите демонстрацию еще раз и наслаждайтесь

Это было бы

   // Load model from the folder in your project
   configuration.setAcousticModelPath("file:voxforge-en-0.4/model_parameters/voxforge_en_sphinx.cd_cont_5000");
...