Как настроить качество фестиваля TTS? - PullRequest
1 голос
/ 09 января 2012

Я использую 2.1 релиз фестиваля. Я смог установить и использовать голос 172M с

(voice_cmu_us_slt_arctic_clunits)

Качество было значительно улучшено, но далеко от желаемого. Я считаю, что поколение по-прежнему использует много значений по умолчанию Можно ли настроить это дальше (например, близко к качеству движка qwiki.com)? Я понимаю, что мне нужна правильная комбинация

  • Метод синтеза
  • Настройки интонации / продолжительности
  • Параметры вывода звука
  • хх?

но очень сложно найти все детали (прогресс довольно медленный).

Любые советы, ссылки на учебные пособия / документы (старая версия, но содержит обзор теории) или фрагменты схемы приветствуются.

PS

Обратите внимание, что до сих пор меня не интересует настройка самих алгоритмов (например, обучение модели голоса с помощью sphinx ).

Для генерации речи я использую команды типа

(SayText "This is a short introduction ...")

и

./text2wave -eval '(voice_cmu_us_slt_arctic_clunits)' TEXT > output.wav
...