Есть ли в Chrome встроенное распознавание речи для элементов ввода "x-webkit-speech"? - PullRequest
17 голосов
/ 06 декабря 2010

Мне интересно, как

<input type="text" x-webkit-speech speech />

Есть ли встроенный в Chrome механизм распознавания речи или он получает доступ к базовому средству распознавания речи в операционной системе?

Ответы [ 10 ]

13 голосов
/ 06 декабря 2010

Да, Chrome распознает речь через серверы Google. Но нет никаких причин, по которым другие браузеры не могли бы реализовать его по-другому (например, с помощью некоторого средства распознавания речи в ОС).

Балу, ваша ссылка на самом деле немного устарела. Последнее предложение Google можно найти здесь: http://www.w3.org/2005/Incubator/htmlspeech/2010/10/google-api-draft.html

Несмотря на то, что распознавание речи было доступно в канале Chrome для разработчиков в течение некоторого времени, оно уже не отправлено, и мы пока не уверены, когда оно будет отправлено. Мы определенно хотим, чтобы люди играли с API и давали отзывы, но мы не думаем, что он еще готов к прайм-тайм.

9 голосов
/ 05 января 2011

В соответствии с кодом отправляет аудиоданные в виде POST-запроса на:

https://www.google.com/speech-api/v1/recognize?client=chromium&lang=??&lm=??&xhw=??&maxresults=3

lm - это grammar в коде, xhw - это hardware_info, что необязательно в соответствии с комментарием. Звук выглядит как speex, x-speex-with-header-byte:

// Encode the frame and place the size of the frame as the first byte. This
// is the packet format for MIME type x-speex-with-header-byte.

Похоже, было бы довольно просто изменить код chrome для использования в вашем собственном приложении.

Обновление:

Вам также необходимо получить ключ API распознавания речи , и они ограничены 50 запросами в день . Невозможно увеличить этот лимит - даже заплатив.

6 голосов
/ 09 февраля 2012

Существует экспериментальный ветвь speexenc, которая может кодировать двоичный формат MIME x-speex-with-header-byte byte, на который она ссылается в QXIP Wiki и доступна на GitHub .Хорошо справляется с работой, помещая размер кадра в качестве первого байта пакетов.

6 голосов
/ 06 декабря 2010

Они используют собственный API для распознавания речи. Пример: отправка запроса на эти серверы.

2 голосов
/ 25 марта 2011

Это может представлять интерес https://github.com/taf2/speech2text Рубиновые привязки для Google речь к тексту API

2 голосов
/ 24 марта 2011

Эта функция теперь работает в бета-версии Chrome 11.

проверить это ..

http://slides.html5rocks.com/#speech-input

2 голосов
/ 06 декабря 2010

Распознавание речи является предложением Google. https://docs.google.com/View?id=dcfg79pz_5dhnp23f5

Эта функция поставляется с Chrome 8+ и, похоже, отправляет данные на серверы Google для фактического распознавания.

1 голос
/ 20 июня 2011

Да, Chrome имеет встроенную поддержку речи через WebKit; просто посмотрите на главную страницу Google (которая теперь имеет микрофон справа от окна поиска). Интересно, однако, работает ли команда Chrome над поддержкой речи Omnibox. В конце концов, Chrome - это браузер на основе WebKit!

0 голосов
/ 14 декабря 2010

Я только что подтвердил это на моем Chrome Cr-48, он работает.

0 голосов
/ 06 декабря 2010

Существует также рабочая группа, которая создала http://www.w3.org/TR/xhtml+voice/, но я не верю, что это реализовано в любом браузере, кроме Opera.

...