Обычно службы голосовых приложений, такие как twilio, tropo и т. Д., Работают, запрашивая управляющее приложение, что делать на основе событий, происходящих во время вызова. Например, при поступлении нового вызова они отправят запрос в предварительно назначенное управляющее приложение, спрашивая, что они должны делать, а затем, когда на вызов ответят, они попросят дальнейшие действия и т. Д.
В вашем случае вы хотите, чтобы он работал наоборот, и вы хотите сказать серверу, обрабатывающему вызов, сделать что-то в ответ на событие с вашей стороны. Может быть вызов API, который вы можете выполнить на платформах twilio, tropo и т. Д., Чтобы инициировать действия, но я не могу вспомнить его. Скорее всего, вам потребуется использовать что-то вроде протокола Asterisk AGI , который позволяет передавать действия на сервер во время обработки вызова. Cloudvox - один из известных мне провайдеров, который поддерживает размещенную службу, поддерживающую интерфейс AGI, поэтому на них стоит взглянуть, что, безусловно, намного проще, чем создание собственного сервера Asterisk.
Я бы также рекомендовал проверить Anveo , поскольку их предложения, как правило, немного сложнее, чем другие, и они часто будут реализовывать функции очень быстро, поэтому вы всегда можете запросить веб-API, который будет воспроизводить mp3 во время живого разговора.