Распознавание речи с использованием CMU Shinx, JSAPI и Google Speech API - PullRequest
1 голос
/ 29 декабря 2011

Распознавание речи - одна из многих особенностей моего текущего проекта, которая, скорее всего, будет разработана в J2EE (другие языки также приветствуются, если их выбор оправдан).

Большинство ссылок на google и на SO предлагают три упомянутых выше варианта, Sphinx 4, JSAPI напрямую и Google Speech API (при вызове сервера на Googleи чем получить результат в виде текста).

Какие другие варианты доступны для меня?И если я использую Sphinx-4, как мне получить языковую модель для общего английского, которая будет использоваться с ним?

Ответы [ 2 ]

3 голосов
/ 29 декабря 2011

Да, есть.

  1. Можно использовать оболочку для Google Speech Recognizer, которая является основной строкой кода. Вы отправляете речевой звук в формате FLAC или SPEEX и получаете признание и оценку доверия. Единственная проблема заключается в том, что Google может закрыть API, как это было с Google Translate.
  2. Другой вариант - использовать Sphinx (Sphinx4 или Pocketsphinx).
  3. Можно использовать HTK (http://htk.eng.cam.ac.uk/) и использовать HVite (HTK-декодер) или другой, например, Julius (http://julius.sourceforge.jp/en/).). Существуют и другие варианты, которые используют HTK для обучения акустических моделей и / или языка и грамматики.

Voxforge имеет акустические и языковые модели для HTK и Sphinx (http://voxforge.org/).

2 голосов
/ 05 января 2012

И если я использую Sphinx-4, как мне получить языковую модель для общего английского, которая будет использоваться с ним?

Вы можете скачать их с сайта CMUSphinx и из других мест. Вы также можете построить их самостоятельно. Одно из возможных мест:

http://www.keithv.com/software/csr/

...