Я хочу оценить, можно ли использовать современный синтез речи в аудиометрическом контексте. Моя идея состоит в том, чтобы генерировать короткие слова и использовать их в экспериментальном исследовании, где я сравниваю результаты синтетического речевого теста и существующего речевого теста (основанного на озвучке). Какие инструменты вы бы порекомендовали для этого типа синтеза речи?
Запрошенные функции:
- Качество голоса, близкое к естественному звучанию при генерации односложных слов
- Возможность генерировать новые голоса с относительной легкостью
- Возможность модулировать просодические функции
- Языковая поддержка имеет второстепенное значение, так как я мог бы использовать ее для создания бессмысленных слов (логатом), но поддержка шведского языка была бы хорошей
Вывод TensorFlow WaveNet кажется непредсказуемым бредом, поэтому я не думаю, что это вариант. Я немного посмотрел на Festival, но, судя по сэмплам, он не звучит достаточно естественно. Но, может быть, образцы не делают это справедливым?