Question

Как часть проекта, мы хотим провести эксперименты с синтетическими голосами, у которых нет единственного географического происхождения, тела, возраста или пола.У нас есть свой собственный набор данных, но я думал об этом во время первоначальных экспериментов с VCTK и создания голоса с использованием Tacotron2 или чего-то подобного.Кто-нибудь знает, был ли выполнен подобный проект?Где физическое тело, которое мы представляем связанным с голосом, намеренно неоднозначно.Или другие проекты, где TTS обучался на корпусе из нескольких человек?Кроме того, кто-нибудь знает какие-либо предостережения или потенциальные проблемы с точки зрения этого подхода?Возможно, могут быть способы работы с трансферным обучением, которые могут быть полезны.

Спасибо!

Nikolay Shmyrev · Answer 1 · 18 февраля 2019

Вы можете проверить https://github.com/r9y9/deepvoice3_pytorch

Образцы мультиспикера доступны , а также предварительно подготовленную модель, которую вы можете попробовать.

Синтез речи на основе многопользовательского корпуса

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Синтез речи на основе многопользовательского корпуса

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы