Проведение глубокого обучения TTS в 2019 году с использованием (DeepVoice | WaveNet | и т. Д.) - PullRequest
0 голосов
/ 20 сентября 2019

Я пытаюсь преобразовать серию предложений в текстовом файле в файлы WAV максимально четким голосом.

Согласно опросу 2019 , в последнее время появилось много улучшений.используя методы глубокого обучения.

Что является отличной новостью, потому что встроенные или часто используемые механизмы преобразования текста в речь звучат очень роботизированно.(Команда OSX «сказать», espeak и т. Д.).

Проблема в том, что страницы GitHub или ссылки на записные книжки сосредоточены на том, как обучить новую модель или настроить экземпляр докера, и некажется, включает минимум

git clone ...
./speak "How are you doing?" -o hayd.wav

Знаете ли вы, как установить и запустить какой-либо из двигателей 2019 из этой статьи, чтобы произнести предложение?

Я обновлю, если / когда найдутот, который работает.

1 Ответ

1 голос
/ 20 сентября 2019

Я не знаю ни о каких других в списке, но для WaveNet вы можете использовать Google API .Ваш код отправляет текст в Google, и они возвращают аудио. клиентских библиотек доступны для C #, Go, Java, Node.js, PHP, Python и Ruby.Если вы хотите сделать это на другом языке, вы можете использовать REST API .Для WaveNet первые 1 миллион символов в месяц бесплатны.После этого это 16 долларов за 1 миллион символов.См. Их страницу с ценами .

Если ваш проект является относительно небольшим, и вам не нужно делать это программно (это не было ясно из вопроса), тогда вы могли быпросто используйте их онлайн-демонстрационную страницу и воспользуйтесь надстройкой браузера (например, Video DownloadHelper или одним из многих других), чтобы загрузить результаты в виде аудиофайлов.В качестве альтернативы вы можете использовать API в командной строке .

Качество WaveNet, на мой взгляд, превосходно и значительно превосходит предыдущие поколения алгоритмов преобразования текста в речь,Вы можете почти верить, что голоса иногда бывают реальными.

...