Механизмы распознавания голоса для встроенных приложений - PullRequest
4 голосов
/ 07 декабря 2009

Я пытаюсь исследовать доступные механизмы распознавания голоса и SDK для разработки приложения с поддержкой голоса Windows CE. Я столкнулся с Nuance, но больше ничего не вижу. Я бы предпочел .Net SDK, если это возможно, но я думаю, что большинство из них будет C / C ++. Я ценю любые предложения. Благодарю.

Ответы [ 5 ]

1 голос
/ 15 декабря 2009

Нюанс в основном скупил всех. Боюсь, они правят речевым рынком ...

Есть несколько других компаний, которые занимаются этой технологией, но я не знаю, насколько хорошо они работают на рынке встраиваемых систем. Существует telisma и Loquendo , которые имеют сильное неанглийское присутствие (и их английский тоже не так уж плох).

Тогда есть еще IBM. Они имеют ViaVoice Embedded .

Одна из важных вещей, которую ждет индустрия, - это посмотреть, что получится от приобретения Microsoft TellMe , но я думаю, что рынок встраиваемых систем может остаться в стороне, вместо того, чтобы подталкивать обработку к " Облако ", где TellMe был в течение длительного времени.

1 голос
/ 15 декабря 2009

работаю с приложениями IVR; В дополнение к Nuance в настоящее время мы проводим оценку Microsoft, IBM и Lumenvox.

Приложения распознавания голоса, включенные в большинство мобильных телефонов, предназначены для сопоставления голосового ввода с ранее произнесенной фразой, например, для присвоения фразы «Джо» записи в адресной книге и для набора номера телефона в этой адресной книге, когда вы говорите « Джо". Более мощные механизмы распознавания речи пытаются расшифровать речь произвольной формы, разбив фразу на фонемы , а затем сопоставив ее с акустическим хранилищем, чтобы попытаться выяснить, что на самом деле было сказано. Полноценный механизм распознавания речи требует изрядного количества ресурсов процессора; чтобы сделать что-либо сложное с распознаванием голоса на мобильном устройстве, вам, вероятно, потребуется отправить данные с устройства на сервер для обработки.

0 голосов
/ 04 марта 2010

Как указано в одном из моих комментариев выше, мы пробуем распознавание голоса .Net SDK от Vangard Voice Systems. В нем используется механизм распознавания голоса Nuance Vocon3200, который пользуется уважением и, похоже, хорошо работает на ранних этапах тестирования. Мы сейчас используем дешевый микрофон и у нас есть проблемы с внешним шумом. Надеюсь, это будет решено с помощью гарнитуры с шумоподавлением. Программной модели немного не хватает того, что она в основном подключается к существующему неголосовому приложению. Из-за этого есть некоторые ограничения, и разработчик имеет ограниченный доступ к API. Каждый раз, когда вы пытаетесь упростить что-то подобное, вы значительно усложняете создание эффективного решения. Учитывая это, мы действительно не смогли найти ни одного конкурирующего продукта, который бы соответствовал нашим потребностям .Net SDK для голосовой поддержки мобильных приложений. В настоящее время у них есть небольшая вырезанная ниша.

Я бы предпочел пойти на C ++ SDK от Nuance (для которого другая компания написала оболочки .Net), но бизнес-модель Nuance предполагает, что мы разрабатываем продукт для перепродажи, и имеет некоторые существенные роялти. Настоящий барьер для компании, которая хочет разрабатывать внутренние приложения.

0 голосов
/ 16 декабря 2009

Существует также проект с открытым исходным кодом CMU Sphinx . У них есть вариант под названием PocketSphinx, предназначенный для портативных устройств.

0 голосов
/ 07 декабря 2009

Попробуйте заглянуть в Microsoft Speech API, http://msdn.microsoft.com/en-us/library/ms897381.aspx

Я полагаю, что он работает на устройствах CE.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...