Звоните с сайта и переводите речь - PullRequest
1 голос
/ 11 января 2012

Я не уверен, что лучший способ это сделать, поэтому я подумал, что я попрошу вас умных людей.

Я хочу создать веб-сайт, где пользователи смогут вводить свой телефонномер.

Как только они это сделают, я хочу, чтобы «сайт» позвонил им и воспроизвел автоматическое сообщение, а затем дождался их ввода в виде речи (т. е. «Вы хотите банан?» пользователь: «Да»)

Затем мне нужно интерпретировать эту речь и сделать так, чтобы веб-сайт отражал выбранное действие.

Пока я пришел к выводу, что мне нужно:

  1. создать систему телефонии (я смотрел на Asterisk),
  2. связать это с услугой VOIP для совершения звонков на реальные номера
  3. Поток речи в Механизм распознавания речи (я смотрел на LumenVox и Nuance Recogniser)
  4. Получите выходные данные из механизма распознавания речи и проанализируйте текст

Хотя это кажется невероятно сложным.Настройка Asterisk сама по себе является огромной болью.После 5 дней возни с ним я все равно не могу заставить его позвонить.

Не могли бы вы узнать какие-нибудь альтернативные способы достижения этого?

Приветствия, Андре

Ответы [ 3 ]

2 голосов
/ 14 января 2012

Для набора номера голосом вам не нужна звездочка и обычная телефония. Вы можете использовать службу ASR на основе red5, обменивающуюся данными по протоколу RTMP и API javascript, чтобы повесить объект flash для записи звука. Вы можете найти несколько интересных примеров этого на

http://speechapi.com

Смотрите демоверсии здесь

http://speechapi.com/demos/home/

используется система распознавания речи с открытым исходным кодом CMUSphinx для декодирования, например, вы можете подключить очень точную модель TIDIGIT только для цифр. Больше информации смотрите на сайте

http://cmusphinx.sourceforge.net

и с широкими возможностями настройки

Вы можете установить службу на своем хосте, вы можете просто загрузить установку со страницы проекта sourceforge

https://sourceforge.net/projects/speechcloud/

1 голос
/ 11 января 2012

Существуют размещенные сервисы, которые могут вам помочь.

Для исходящих вызовов, взаимодействия с тональным набором, отправки SMS-сообщений и других качеств телефонии http://www.twilio.com/ очень популярен.В прошлый раз, когда я смотрел, Twilio не делал распознавание речи или синтез текста в речь.

Для распознавания речи и синтеза текста в речь, возможно, вы захотите взглянуть на Nuance , Yapme , ispeech.org , vlingo или другие.Nuance улучшил свою программу для разработчиков и теперь предоставляет вам бесплатный доступ к их сервисам для разработки.Яп (я полагаю) недавно был куплен Amazon , поэтому мы можем увидеть некоторые изменения в их сервисе. Vlingo был приобретен Nuance , поэтому не уверен в его статусе сейчас.

Существует множество дорогостоящих сервисов, которые могут вам помочь (Convergys, TellMe, Voxeo и другие).Я слышал о менее дорогих сервисах IVR, но не пользовался ими.Посмотрите на Ангел или Метафора IVR и посмотрите, соответствуют ли они вашим потребностям.

1 голос
/ 11 января 2012

Объединение такой системы с использованием открытого исходного кода и других компонентов будет болезненным и отнимает много времени. Я бы порекомендовал использовать полнофункциональную систему IVR, в которой есть все компоненты, которые вам уже нужны, в единой системе, где вы можете просто сосредоточиться на приложении, а не на совместной работе всех компонентов. Я бы порекомендовал использовать Voxeo Prophecy , поскольку он прост в использовании, имеет конкурентоспособную цену, предоставляет хостинговое и локальное решение, а разработчики могут бесплатно разрабатывать и тестировать свои приложения. На этой платформе вы можете собрать полное доказательство концепции практически без затрат для вас. Он поставляется с механизмом распознавания речи Text-To-Speech и позволяет вам совершать исходящие вызовы, используя стандарт W3C под названием Call Control XML (CCXML) . Если вы не хотите тратить время на изучение CCXML, вы можете использовать что-то вроде Служба уведомлений Chrysalis , которая является размещенной службой или решением на основе помещения, которое позволяет вам совершать исходящие вызовы через API или через его веб-интерфейс. Он интегрируется с Пророчеством, и люди из Chrysalis собрали системы, подобные той, которую вы описываете с этими продуктами. Если вы используете Prophecy, вы соберете голосовое приложение, чтобы запрашивать у пользователей ответы, используя другой стандарт W3C под названием VoiceXML . Это веб-стандарт, поэтому его легко интегрировать с веб-приложением для инициирования вызова и обновления пользовательских ответов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...