В stackoverflow есть еще одна публикация , которая задает очень похожий вопрос, но они хотели использовать Google Speech Recognition API. Там довольно хороший ответ на этот вопрос.
Существует также новый Speech API в Chrome , который можно использовать. Проблема с этим решением состоит в том, что вы должны нажать на значок, чтобы заставить механизм распознавания речи (ASR) начать прослушивание, и ваши пользователи ограничены определенной версией Chrome. Большинство этих решений работают так, что вам нужно щелкнуть значок, чтобы получить следующее высказывание пользователя. Поэтому, как только ASR получит команду, она распознает, что вам нужно снова щелкнуть значок, чтобы снова прослушать его. Для приложения, которое имеет очень ограниченный набор команд (то есть «следующий» и «назад»), в этом нет особой ценности, так как пользователю будет так же легко нажать на кнопку, которая говорит приложению идти вперед или назад.
Похоже, WAMI API позволяет программно запустить процесс распознавания, что является лучшей альтернативой. Это JavaScript API, который вы просто должны включить в свои веб-страницы, чтобы начать прослушивание ввода пользователя. Документация для этого API содержит хорошие примеры разработки мультимодального приложения для распознавания речи. Вам нужно будет научиться разрабатывать грамматики, которые указывают речевому механизму, какие высказывания вы ищете в своем приложении. WAMI использует формат грамматики JSpeech . Как только вы получите распознавание «следующего» или «назад» от ASR, вы просто перейдете к следующему или предыдущему слайду с помощью JavaScript.