Да, вы можете использовать теги <par>
и <media>
в Google SSML для создания параллельных «дорожек» аудио, которые воспроизводятся одновременно. Обратите внимание, что это не стандартные SSML, а расширения Google.
Тег <par>
указывает, что все содержимое должно воспроизводиться параллельно. Внутри него обычно есть несколько блоков <media>
(хотя у вас могут быть и другие блоки <par>
, а также блоки <seq>
для последовательных порций). Каждый блок <media>
может иметь атрибуты, указывающие некоторые настройки для этого блока (например, громкость или начальные смещения), и содержит либо блоки <speak>
или <audio>
.
Таким образом, чтобы сделать то, что вы описываете, вы могли бы иметь что-то вроде этого:
<speak>
<par>
<media>
<audio src="https://actions.google.com/sounds/v1/cartoon/cartoon_cowbell.ogg"></audio>
</media>
<media>
<speak>Welcome! What would you like to check?</speak>
</media>
</par>
</speak>
Google также предоставляет инструмент, который поможет вам спроектировать это: https://actions-on-google-labs.github.io/nightingale-ssml-editor/