Автоматизируйте запись речи в Chrome - PullRequest
3 голосов
/ 13 октября 2011

Я пытаюсь автоматизировать запись речи с помощью речевого ввода Google (работает только в Chrome).

Как таковой, пользователь должен нажать на микрофон, чтобы начать запись, но я работаю над установкой, где пользователь не будет взаимодействовать с компьютером. Таким образом, я должен запустить запись другим способом.

Поскольку кажется, что вы не можете получить доступ к функциям речевого ввода по коду, то есть вы не можете вызвать функцию, чтобы начать запись. Итак, теперь я смотрю на симуляцию щелчка мышью на микрофоне.
Я пытался использовать javaScript, но кажется, что затрагиваются только события и обработчики событий (например, имитированный щелчок по полю ввода запустит его обработчики щелчков, но не даст фокус на это поле.)

Итак, теперь я смотрю на симуляцию щелчков мышью в системе Windows, и я нашел несколько программ, которые могут это делать (в основном с интервалами), и это работает, запись начинается. Но проблема в том, что мне нужно активировать симуляцию кликов из приложения браузера.
На данный момент лучшим вариантом является AutoHotkey , который позволяет создавать собственные сценарии, в моем случае - сценарий, имитирующий щелчок мыши в заданной позиции. Так что, если бы я мог выполнить этот скрипт из браузера, я был бы в безопасности, но я не знаю, как это сделать.

Любые идеи и / или мысли приветствуются!

Ответы [ 2 ]

0 голосов
/ 08 мая 2013

Я столкнулся с подобной проблемой, затем я посмотрел на этот сайт Майка Пульца -

http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/

По сути, он сам создает аудио файл,использует Sox для преобразования его в формат .flac, а затем отправляет его в Google Voice Api.Таким образом, вам не нужно нажимать на микрофон, или, скорее, вы можете создать свой собственный обратный вызов микрофона.

Я также создал решение C # по адресу - https://github.com/seigneur/Voice-Biometricsпомощь - http://www.youtube.com/watch?v=PA00SPOTL-M

Надеюсь, это поможет

0 голосов
/ 13 октября 2011

У меня похожая проблема. Мы хотели начать и остановить запись, чтобы проверить, насколько хорошо работает API Google с распознаванием голоса на немецком языке. Но решение пока не найдено.

Функция html5 по-прежнему ограничена и работает только для пяти полей ввода. Может быть, вы найдете здесь некоторую информацию: http://lists.w3.org/Archives/Public/public-xg-htmlspeech/2011Feb/att-0020/api-draft.html Мы вернемся к теме завтра.

...