Я пишу и размечаю разговорные высказывания для инструмента VUI. Мы используем Google Cloud Wave-net для нашей службы TTS, и я пытался использовать SSML, чтобы сделать вывод TTS более естественным. Когда я добавляю тег «prosody», вывод TTS добавляет паузу перед началом тега, как показано ниже:
<speak>
Rebecca is allergic to <prosody rate="slow" range="high">soybean oil.</prosody> Would you like to cancel this order?
</speak>
В этом примере вывод TTS приостанавливается между «to» и «соевым маслом». Это просто глупое примерное предложение, но в нашем реальном продукте нам нужно использовать тег такого типа, чтобы обеспечить акцент и различие между сложными словами.
Кто-нибудь еще сталкивался с этой проблемой? Любые советы?