Я экспериментировал с голосами Уотсона TTS DNN, они звучат великолепно.
Проблема, с которой я столкнулся, заключается в том, что нам нужно около 500 мс в начале и в конце голосов, чтобы избежать начальногозвуковая привязка, которая обычно происходит с TTS и для других нужд синхронизации.
Я попытался применить разрыв SSML в начале, но безуспешно.Хорошо работает, встроенный в речь, но не добавляет перерыв до и после.
Есть ли другой способ сделать это с помощью SSML Уотсона или другого параметра?
Спасибо за любую помощь!
Я пробовал до и после текста.Работает в тексте, только не до и после.
<speak version="1.0"><break time="500ms"/>Hello World<break time="500ms"/></speak>