Можно ли настроить CMU Sphinx для распознавания ~ 200 слов - PullRequest
7 голосов
/ 31 января 2012

У меня есть клиент, которому нужно приложение для Android, которое может распознавать голосовые команды.Из того, что я понимаю, встроенная функция передачи голоса в текст на самом деле отправляет данные на серверы Google, которые затем возвращают текстовый перевод.Это серьезная проблема, поскольку голосовые данные чрезвычайно чувствительны (если только данные не шифруются при отправке в Google и из Google - но я сомневаюсь, что они зашифрованы).

Есть 2 варианта, которые я могу придумать.Во-первых, это преобразование речи в текст на Android, хотя, похоже, это будет чрезвычайно дорогая операция.Вторая возможность заключается в том, чтобы локальный сервер преобразовывал данные для меня (я мог зашифровать голосовые данные и перевод при их отправке в и из).Это то, что CMU Sphinx может осуществить?Возможно, стоит отметить, что у меня также будет доступ к серверу Asterisk, который мог бы помочь с этим (я не знаю).

В действительности, должно быть только ~ 200 слов, которые понадобятся длябыть признанным.Я бы предпочел решения с открытым исходным кодом / бесплатное программное обеспечение, однако я также открыт для коммерческого решения (возможно, FlexT9).В идеале я могу отправить аудиопоток куда-нибудь, вернуть строку, которая является текстом, и затем я могу анализировать и выполнять другие операции со строкой.в прошлом, так что я надеюсь, что кто-то может, по крайней мере, указать мне правильное направление.Спасибо!

Ответы [ 2 ]

10 голосов
/ 31 января 2012

CMUSphinx - это набор инструментов для распознавания речи с открытым исходным кодом, который вы можете использовать для создания своего приложения.Он содержит инструменты, библиотеки и данные, которые позволят вам создать речевое приложение.Вы можете узнать больше о CMUSphinx на сайте выше.

На Android у вас есть несколько вариантов использования CMUSphinx:

  1. Распознавание звука на устройстве.Для этого вы можете скомпилировать движок Pocketsphinx для Android.Подробнее см. В этом блоге .

  2. Распознавание звука на сервере.В качестве сервера вы можете использовать Pocketsphinx или Sphinx4.Вы можете отправлять аудио в сжатом формате flac или извлекать функции распознавания речи на устройстве и отправлять поток функций на сервер.

CMUSphinx предоставляет вам несколько акустических моделей, которые позволят вам распознавать звук в несколькихязыки, такие как английский, французский, китайский, немецкий, голландский, русский.

Вы также можете улучшить результат распознавания с помощью инструментов адаптации.

Если у вас есть какие-либо вопросы по CMUSphinx, вы можете спросите в наших форумах сообщества .

4 голосов
/ 31 января 2012

Закрытый источник, но бесплатный, это речевые движки Microsoft. Для получения дополнительной информации см. В чем разница между System.Speech.Recognition и Microsoft.Speech.Recognition? . Для получения дополнительной информации вы можете попробовать https://stackoverflow.com/a/4217638/90236

Полный пакет SDK для Microsoft Server Speech Platform 11 доступен по адресу http://www.microsoft.com/download/en/details.aspx?id=27226. Речевой движок можно загрузить бесплатно.

...