Я использую 2.1 релиз фестиваля. Я смог установить и использовать голос 172M с
(voice_cmu_us_slt_arctic_clunits)
Качество было значительно улучшено, но далеко от желаемого. Я считаю, что поколение по-прежнему использует много значений по умолчанию Можно ли настроить это дальше (например, близко к качеству движка qwiki.com)? Я понимаю, что мне нужна правильная комбинация
- Метод синтеза
- Настройки интонации / продолжительности
- Параметры вывода звука
- хх?
но очень сложно найти все детали (прогресс довольно медленный).
Любые советы, ссылки на учебные пособия / документы (старая версия, но содержит обзор теории) или фрагменты схемы приветствуются.
PS
Обратите внимание, что до сих пор меня не интересует настройка самих алгоритмов (например, обучение модели голоса с помощью sphinx ).
Для генерации речи я использую команды типа
(SayText "This is a short introduction ...")
и
./text2wave -eval '(voice_cmu_us_slt_arctic_clunits)' TEXT > output.wav