Синтез речи с естественным звучанием для создания коротких слов, таких как логатомы - PullRequest
0 голосов
/ 17 сентября 2018

Я хочу оценить, можно ли использовать современный синтез речи в аудиометрическом контексте. Моя идея состоит в том, чтобы генерировать короткие слова и использовать их в экспериментальном исследовании, где я сравниваю результаты синтетического речевого теста и существующего речевого теста (основанного на озвучке). Какие инструменты вы бы порекомендовали для этого типа синтеза речи?

Запрошенные функции:

  • Качество голоса, близкое к естественному звучанию при генерации односложных слов
  • Возможность генерировать новые голоса с относительной легкостью
  • Возможность модулировать просодические функции
  • Языковая поддержка имеет второстепенное значение, так как я мог бы использовать ее для создания бессмысленных слов (логатом), но поддержка шведского языка была бы хорошей

Вывод TensorFlow WaveNet кажется непредсказуемым бредом, поэтому я не думаю, что это вариант. Я немного посмотрел на Festival, но, судя по сэмплам, он не звучит достаточно естественно. Но, может быть, образцы не делают это справедливым?

...