Я очень новичок в изучении cognitive
услуг преобразования текста в речь (TTS) Microsoft Azure
. Я успешно смог преобразовать данный текст в аудиофайл, используя TTS
сервисы Azure
. Это нормально работает, когда в моем документе SSML
XML
есть один элемент voice
. Пример работы SSML
:
<speak version="1.0" xml:lang="en-US">
<voice xml:lang="en-US" xml:gender="Male" name="en-US-Jessa24kRUS">
Hello, this is my sample text to convert into audio?
</voice>
</speak>
Но, когда у меня несколько голосовых меток (по полу), это вызывает ошибку. SSML
этого:
<speak version="1.0" xml:lang="en-US">
<voice xml:lang="en-US" xml:gender="Male" name="en-US-Guy24kRUS"> What’s your name? </voice>
<voice xml:lang="en-US" xml:gender="Female" name="en-US-Jessa24kRUS"> My name is Cindy Smith. Do you know John Silver?</voice>
<voice xml:lang="en-US" xml:gender="Male" name="en-US-Guy24kRUS"> John and I are old friends. </voice>
<voice xml:lang="en-US" xml:gender="Female" name="en-US-Jessa24kRUS"> John just joined our company as a salesperson. </voice>
<voice xml:lang="en-US" xml:gender="Male" name="en-US-Guy24kRUS"> That’s good news. John has been a salesperson for chemical products for many years. </voice>
<voice xml:lang="en-US" xml:gender="Female" name="en-US-Jessa24kRUS"> I head he really likes his new job.</voice>
</speak>
И ошибка:
Код состояния ответа не указывает на успех: 400 (SSML должен содержать максимум 5 голосовых элементов . Actual 6.).
Мне будет очень полезно, если кто-то объяснит, почему это ограничивает меня пятью voice tags
, хотя в нет никаких ограничений, упомянутых документация .