Как я могу создать слайд-шоу с голосовым управлением, используя WAMI и impression.js? - PullRequest
1 голос
/ 13 января 2012

Я хочу создать слайд-шоу с голосовым управлением с помощью WAMI API MIT (или другого API распознавания речи) и impression.js.Я хочу включить простые команды, такие как «следующая страница» или «вернуться».

Возможно ли это?Как я мог это сделать?

Ответы [ 3 ]

1 голос
/ 08 сентября 2013

Я бы использовал SpeechRecognition API в браузере.

Для простого способа сделать это с помощью JavaScript, посмотрите annyang , библиотеку, которая упрощает работу с распознаванием речи.

1 голос
/ 13 января 2012

В stackoverflow есть еще одна публикация , которая задает очень похожий вопрос, но они хотели использовать Google Speech Recognition API. Там довольно хороший ответ на этот вопрос.

Существует также новый Speech API в Chrome , который можно использовать. Проблема с этим решением состоит в том, что вы должны нажать на значок, чтобы заставить механизм распознавания речи (ASR) начать прослушивание, и ваши пользователи ограничены определенной версией Chrome. Большинство этих решений работают так, что вам нужно щелкнуть значок, чтобы получить следующее высказывание пользователя. Поэтому, как только ASR получит команду, она распознает, что вам нужно снова щелкнуть значок, чтобы снова прослушать его. Для приложения, которое имеет очень ограниченный набор команд (то есть «следующий» и «назад»), в этом нет особой ценности, так как пользователю будет так же легко нажать на кнопку, которая говорит приложению идти вперед или назад.

Похоже, WAMI API позволяет программно запустить процесс распознавания, что является лучшей альтернативой. Это JavaScript API, который вы просто должны включить в свои веб-страницы, чтобы начать прослушивание ввода пользователя. Документация для этого API содержит хорошие примеры разработки мультимодального приложения для распознавания речи. Вам нужно будет научиться разрабатывать грамматики, которые указывают речевому механизму, какие высказывания вы ищете в своем приложении. WAMI использует формат грамматики JSpeech . Как только вы получите распознавание «следующего» или «назад» от ASR, вы просто перейдете к следующему или предыдущему слайду с помощью JavaScript.

0 голосов
/ 13 января 2012

Вы можете попробовать SpeechAPI, созданный со вспышкой и sphinx4 http://cmusphinx.sourceforge.net, который позволяет вам распознавать из javascript в браузере.Демонстрации и прочее можно найти здесь:

http://speechapi.com/

Вы можете установить собственный сервер распознавания речи для работы с flash, используя сервер из проекта voice api sourceforge

http://sourceforge.net/projects/speechcloud/

...