Качество преобразования текста в речь Google (WaveNet) ухудшается при использовании длинных текстов - PullRequest
0 голосов
/ 07 января 2019

Используя API со шведским голосом sv-SE-Wavenet-A, кажется, что качество звука ухудшается с более длинными текстами.

Краткий текст:

Детальная информация от человека до конца года. Канал Сом под эротическим соблазнительным сексом. До шлюха коммерция инген титта, мужчины алла коммер и твингас бетала.

Длинный текст (жирный шрифт = короткий текст сверху):

SVT backade секс процент - endast en tredjedel tittas - твингас бетала Предварительный просмотр сообщения от MMS-сообщения vuxendagiset SVT Tappade Sex Procent AV Sin Tittartid до 2018 года. Ню титт дет па эндаст ан дрыг треджедель тиден па свт, мужчины все Sverige tvingas ndа betala sedan årsskiftet. СВТ. SVT: s tittarsiffror Tappade до 34,9%. Det tvångsfinansierade vuxendagiset har alltså bara en dryg tredjedel av tittartiden, мужчины Самая лучшая медитация в Швеции. Бетала для детты. Siffrorna from MMS or preliminära och SVT ska ha 34,9% в полном объеме, TV4 - 31,9%, Discovery Networks - 11,9%, скандинавские страны Развлекательная группа 11,6%. Дискавери Инклюдерар Канал 5 оч нордический Развлечение TV3. Детальная информация о человеке до Tvångsfinansiering av en kanal som под сексом alltså tappade sex procent av tittartiden. Пока шлюха коммер Инген Титта, мужчины Алла Коммер ndа tvingas betala. Социализм базовый sig på tvång när Народная жизнь Frivilligt gör det som socialisterna vill åstakomma. Det är en ren Скамьей об де Боргерлига Партиерна Вар Мед Мед Оч Древом Игеном Твинсвенсиринген и дет. Lämplig ätgärd är att istället koda SVT, så får de som vill betala for detta Гора Дет Оч Овига тапочек. Så kan också SVT falla bort i glömskan. Tills detta sker kommer förstås bloggen bevaka SVT: s felsteg, men kom ihåg att anmälningar до granskningsnämnden ej ска горас дэт дет легитимер и т. д. система здравоохранения. СВТ и др. Актоболаг, сом, бескіртсінгсрэтт аввен фолкет. Nedanstående komtatarer är inte en del av det redaktionella innehållet och användare ansvarar själva for sina kommentarer. Se även комментарсреглерна, инклюзивный листан мед комментаторорер сом автоматист Kommer Raderas På Grund Av Brott Mot Dessa. Геном ат комментера samtycker du till att dom kommentar, tidsstämpel, profillänk och псевдоним sparas av Googles Blogger-система с релевантной информацией, dvs så länge blogginlägget или публикация.

Запрос API

const textToSpeech = require('@google-cloud/text-to-speech')
const client = new textToSpeech.TextToSpeechClient()
client.synthesizeSpeech({
  input: text,
  voice: {
    languageCode: 'sv-SE',
    ssmlGender: 'FEMALE',
    name: 'sv-SE-Wavenet-A',
  },
  audioConfig: {
    audioEncoding: 'MP3',
  },
})

Результаты API

При сравнении аудио сначала воспроизводится результат, полученный при отправке короткого текста. Затем он воспроизводит тот же текст, но вырезанный из результата, который я получил при отправке длинного текста. Наконец, он играет их обоих вместе.

Это ошибка или ожидается? Я не заметил какого-либо ухудшения качества при использовании голосов en-US или en-GB.

Я заметил, что шведский голос использует другой NaturalSampleRateHertz, чем все другие голоса, возможно, это может вызвать это?

1 Ответ

0 голосов
/ 07 января 2019

Это, вероятно, больше связано с использованием MP3 в качестве формата кодирования , чем с любой разницей в частоте дискретизации с другими языками. Поскольку MP3 является форматом с потерями, ожидается, что некоторое качество может быть потеряно; Различия между коротким файлом и более длинным файлом, вероятно, связаны с используемым алгоритмом кодирования MP3 .

Я проверил на своей стороне API Синтеза речи , и голос "sv-SE-Wavenet-A", кажется, использует naturalSampleRateHertz 24000, как и весь wavenet, который я проверил (все Голоса en-US-Wavenet также в 24000).

Я бы порекомендовал вам изменить флаг audioEncoding на другой формат кодирования, например "OGG_OPUS", который даст лучшее качество звука.

  audioConfig: {
    audioEncoding: 'OGG_OPUS',
  },

Если формат MP3 является обязательным, вы можете изменить формат на своей стороне, чтобы вы могли выбрать, какие параметры вы считаете удобными в кодировке MP3, чтобы обеспечить максимальное качество звука, в то время как аудиофайл сжимается.

...