Я пытаюсь создать систему озвучивания текста и ответа, которая работает по телефону (это для бизнеса, на который воздействует cover-19), нам нужен динамический ответ c, основанный на том, что говорит пользователь. Поэтому не могу использовать жестко закодированные ответы
Я думаю, что-то вроде этого;
- При поступлении вызова воспроизводится сообщение
- (при условии twilio) или некоторые другие ASR запускаются
- ASR отправляется webhook
- ожидает до 45 секунд ответа
- отправляет ответ, используя текст в речь
- ожидает ответа, если нет ответа зависает
Проблема в том, что я не могу понять, с чего начать или какую платформу использовать. Я думал о twilio, но нет никаких примеров или реальной информации о том, как это сделать.
Может ли кто-нибудь здесь помочь мне?