Путаница в текстовом интерфейсе Google Cloud (Как загрузить файлы mp3?) - PullRequest
0 голосов
/ 13 декабря 2018

Я бы хотел предвосхитить это тем фактом, что я не программист / разработчик - я мультимедийный дизайнер.Я использую преобразование текста в речь для создания аудиофайлов-заполнителей, которые можно использовать для определения времени анимации до того, как мы записываем официальное звуковое повествование.

Ранее я использовал Amazon Polly, но хотел попробовать Google Cloud.Тем не менее, мне очень трудно понять, как сгенерировать mp3-файлы и сохранить их.

С помощью Amazon Polly вы просто заходите на веб-сайт, вводите свой текст в поле и нажимаете кнопку, и он сохраняет ваш файл в формате mp3.С Google Cloud это кажется намного сложнее.В руководстве «Быстрый старт» я включаю API, загружаю файлы JSON, устанавливаю учетные данные среды, инициализирую SDK и вводу кода в командной строке.

Каждое из руководств, которые я прочитал на своей странице документации, неизбежно ведет меня к шагу, который я просто не понимаю.Я ненавижу звучать как полный шут, но это, кажется, немного над моей головой.Я не собираюсь создавать программное обеспечение или интегрировать машинное обучение в веб-сайт, я просто хочу ввести несколько строк текста и сгенерировать файл mp3.

Есть ли способ сделать это с помощью Google Cloud?Страница запуска (https://cloud.google.com/text-to-speech/) предлагает именно то, что я хочу, но нет возможности загрузить файлы, просто предварительно просмотрите их.

Заранее благодарим за любую помощь, которую вы можете оказать этому новичку.

Ответы [ 2 ]

0 голосов
/ 10 апреля 2019

Или этот однострочный (требуется jq):

curl -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json; charset=utf-8" \
  --data "{
    'input':{
      'text':'Hello Android is a mobile operating system developed by Google,
         based on the Linux kernel and designed primarily for
         touchscreen mobile devices such as smartphones and tablets.'
    },
    'voice':{
      'languageCode':'en-gb',
      'name':'en-GB-Standard-A',
      'ssmlGender':'FEMALE'
    },
    'audioConfig':{
      'audioEncoding':'MP3'
    }
  }" "https://texttospeech.googleapis.com/v1/text:synthesize" | jq --raw-output '.audioContent' | base64 --decode > synthesized-audio.mp3
0 голосов
/ 13 декабря 2018

Все инструменты Google, относящиеся к ML, имеют довольно слабый пользовательский интерфейс и разработаны специально для использования в программах.Если вы просто ищете некоторые базовые инструменты для разумного использования, возможно, в данный момент это не GCP.

Учитывая, что сэмплы не так уж и трудно превратить в нечто большее, если вы хотите немного потрудиться в начале.Я бы предложил использовать командную строку , описанную здесь.

Я собираюсь добавить некоторые начальные шаги.1) Загрузите и настройте инструменты Gcloud SDK. 2) В терминале запустите gcloud auth application-default login.Откроется браузер, войдите в систему, как и в консоли GCP.3) Они предоставили пример запроса для генерации файла:

curl -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \
  -H "Content-Type: application/json; charset=utf-8" \
  --data "{
    'input':{
      'text':'Android is a mobile operating system developed by Google,
         based on the Linux kernel and designed primarily for
         touchscreen mobile devices such as smartphones and tablets.'
    },
    'voice':{
      'languageCode':'en-gb',
      'name':'en-GB-Standard-A',
      'ssmlGender':'FEMALE'
    },
    'audioConfig':{
      'audioEncoding':'MP3'
    }
  }" "https://texttospeech.googleapis.com/v1/text:synthesize" > synthesize-text.txt

Это то, что я имел в виду из-за плохого опыта, код https://texttospeech.googleapis.com/v1/text:synthesize" > synthesize-text.txt записывает результаты операции преобразования текста в речь в synthesize-text.txt.и внутри txt находится ваш mp3 файл.Но подождите, они ожидают, что вы будете использовать его программно, поэтому MP3 - это не просто прямой файл, вы можете захотеть сделать что-то еще с ним, поэтому вместо этого он возвращается в кодировке Base64, что упрощает использование двоичных данных через http(где текст является наиболее распространенным).Поэтому вместо mp3 вы получаете файл json, например:

{"audioContent": "// NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw / BBTpwTvB + IAxIfghUfW .."}

Этот текстначиная с // IS ваше аудио.Но поскольку вы делаете это вручную, вам нужно скопировать все внутри кавычек (это будет очень длинная строка текстовых символов, начинающихся с // ... сохранить символы //) в новый файл, который называется как угодно.они назвали его synthesize-output-base64.txt.Затем запустите base64 synthesize-output-base64.txt --decode > synthesized-audio.mp3

И все готово ... исходный запрос позволяет вам указать текст, голос и т. Д. Но реально, если вы ищете случайный текст в речь с красивымUI, GCP еще не там.

...