Можно ли синтезировать текст в речь без записи нового файла? - PullRequest
0 голосов
/ 09 октября 2019

Я хочу синтезировать текст в речь, используя GCP Text-to-Speech API, почти каждый пример, который я могу найти, записывает новый файл, я хотел бы сделать это, пока функция передает текст и читает его через динамик компьютера. ,Я просто пытался преобразовать загруженный код GCP, который говорит привет мир. Я не смог найти способ прочитать его сразу после его преобразования. Похоже, что у Watson и Azure есть такая служба, а у GCP нет?

client = texttospeech.TextToSpeechClient(credentials=credentials)


synthesis_input = texttospeech.types.SynthesisInput(text=string)


voice = texttospeech.types.VoiceSelectionParams(
    language_code='en-US',
    ssml_gender=texttospeech.enums.SsmlVoiceGender.NEUTRAL)


audio_config = texttospeech.types.AudioConfig(
    audio_encoding=texttospeech.enums.AudioEncoding.MP3)


response = client.synthesize_speech(synthesis_input, voice, audio_config)

with open('output.mp3', 'wb') as out:
    out.write(response.audio_content)
    print('Audio content written to file "output.mp3"')

Любая помощь будет принята с благодарностью, я предполагаю, что мне не хватает какой-либо документации или простой конфигурации.

1 Ответ

2 голосов
/ 09 октября 2019

API GCP Text To Speech возвращает ответ, содержащий аудиоданные. Что вы будете делать с этими данными по возвращении, зависит от вас. В приведенном выше примере данные записываются в файл. Если хотите, вы можете передать эти данные на аудиоплеер для немедленного воспроизведения без использования файла. Выбор формата данных: WAV, MP3 или OGG ... см. https://cloud.google.com/text-to-speech/docs/reference/rest/v1beta1/text/synthesize#AudioEncoding.

Что касается API для воспроизведения аудиоданных ... Воспроизведение аудио с Python

...