Да, это возможно.
Вы можете использовать SSML-теги в выходной речевой реакции вашего навыка для достижения этой цели.
Выможет
- шепот
- сделать акцент на слове или фразе
- использовать разные языки, такие как французский, испанский и т. д.
- разные голоса и многое другое
Например
<speak>
Here's a surprise you did not expect.
<voice name="Kendra"><lang xml:lang="en-US">I want to tell you a secret.</lang></voice>
<voice name="Brian"><lang xml:lang="en-GB">Your secret is safe with me!</lang></voice>
<voice name="Kendra"><lang xml:lang="en-US">I am not a real human.</lang></voice>.
Can you believe it?
</speak>
Подробнее об использовании тегов SSML ЗДЕСЬ