Все инструменты Google, относящиеся к ML, имеют довольно слабый пользовательский интерфейс и разработаны специально для использования в программах.Если вы просто ищете некоторые базовые инструменты для разумного использования, возможно, в данный момент это не GCP.
Учитывая, что сэмплы не так уж и трудно превратить в нечто большее, если вы хотите немного потрудиться в начале.Я бы предложил использовать командную строку , описанную здесь.
Я собираюсь добавить некоторые начальные шаги.1) Загрузите и настройте инструменты Gcloud SDK. 2) В терминале запустите gcloud auth application-default login
.Откроется браузер, войдите в систему, как и в консоли GCP.3) Они предоставили пример запроса для генерации файла:
curl -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \
-H "Content-Type: application/json; charset=utf-8" \
--data "{
'input':{
'text':'Android is a mobile operating system developed by Google,
based on the Linux kernel and designed primarily for
touchscreen mobile devices such as smartphones and tablets.'
},
'voice':{
'languageCode':'en-gb',
'name':'en-GB-Standard-A',
'ssmlGender':'FEMALE'
},
'audioConfig':{
'audioEncoding':'MP3'
}
}" "https://texttospeech.googleapis.com/v1/text:synthesize" > synthesize-text.txt
Это то, что я имел в виду из-за плохого опыта, код https://texttospeech.googleapis.com/v1/text:synthesize" > synthesize-text.txt
записывает результаты операции преобразования текста в речь в synthesize-text.txt.и внутри txt находится ваш mp3 файл.Но подождите, они ожидают, что вы будете использовать его программно, поэтому MP3 - это не просто прямой файл, вы можете захотеть сделать что-то еще с ним, поэтому вместо этого он возвращается в кодировке Base64, что упрощает использование двоичных данных через http(где текст является наиболее распространенным).Поэтому вместо mp3 вы получаете файл json, например:
{"audioContent": "// NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw / BBTpwTvB + IAxIfghUfW .."}
Этот текстначиная с // IS ваше аудио.Но поскольку вы делаете это вручную, вам нужно скопировать все внутри кавычек (это будет очень длинная строка текстовых символов, начинающихся с // ... сохранить символы //) в новый файл, который называется как угодно.они назвали его synthesize-output-base64.txt.Затем запустите base64 synthesize-output-base64.txt --decode > synthesized-audio.mp3
И все готово ... исходный запрос позволяет вам указать текст, голос и т. Д. Но реально, если вы ищете случайный текст в речь с красивымUI, GCP еще не там.