Прототип на основе распознавания речи - PullRequest
0 голосов
/ 05 октября 2010

Я хочу создать прототип, основанный на автоматическом распознавании речи, чтобы иметь дело с отчетами.

В данный момент требования не определены, но сначала я получу несколько фиктивных наборов данных.И сначала я сконцентрируюсь на вводе акустических сигналов и дальнейшей обработке.

Я действительно не знаю, с чего начать, какая среда разработки, язык программирования, ...

Я бы предпочел работать с visual studio, потому что у меня уже есть лицензия, но я открыт для предложений.

У вас есть какие-то учебные пособия, идеи, опыт?

1 Ответ

1 голос
/ 05 октября 2010

(я повторно использую электронное письмо, которое недавно отправил другу. Надеюсь, это будет полезно)

У Microsoft есть два варианта речевых движков: Desktop и Server.Речевой движок настольного компьютера поставлялся с различными продуктами, включая: MS Office 2003, Windows Vista и Windows 7. Речевой движок сервера поставлялся с Office Communications Server (OCS) и Управляемым API унифицированных коммуникаций (UCMA).

Настольный речевой движок обычно поставляется с грамматикой диктовки.Он оптимизирован для использования на рабочем столе и может использоваться несколькими процессами.Это позволит вам использовать один экземпляр распознавателя рабочего стола и выполнять голосовые команды для Excel и Word.Распознаватель рабочего стола может быть запрограммирован через API-интерфейс COM SAPI или пространство имен .NET System.Speech.

Сервер речи не поставляется с какой-либо грамматикой.Он оптимизирован для использования на сервере.Я считаю, что он оптимизирован и для телефонии.Он предназначен для сценариев большого объема.Речевой движок сервера может быть запрограммирован через API-интерфейс COM SAPI или пространство имен .NET Microsoft.Speech.

Речевой движок сервера упакован в новый бесплатный распространяемый пакет под названием «Речевая платформа Microsoft Server».Я предполагаю, что следующая версия OCS (продукт с именем Lync - http://www.microsoft.com/en-us/lync/default.aspx) также будет включать в себя ту же платформу Microsoft Server Speech.

Платформа Microsoft Server Speech Platform доступна для бесплатной распространяемой загрузки.три части: SDK, среда выполнения и языки. Доступно 26 языков. Для справки см. http://blogs.msdn.com/b/speak/archive/2010/03/30/microsoft-server-speech-platform-10-1-released-sr-and-tts-in-26-languages.aspx. Со времени публикации этого блога Microsoft незаметно выпустила обновленную версию речевой платформы Microsoft Server 10.2.доступно для скачивания по адресу:

SDK: http://www.microsoft.com/downloads/en/details.aspx?FamilyID=1b1604d3-4f66-4241-9a21-90a294a5c9a4&displaylang=en

Время выполнения: http://www.microsoft.com/downloads/en/details.aspx?FamilyID=bb0f72cb-b86b-46d1-bf06-665895a313c7&displaylang=en

Языки: http://www.microsoft.com/downloads/en/details.aspx?FamilyID=47ffd4e5-e682-4228-8058-dd895252a3c3&displaylang=en

...