Question

Я хочу создать очень реалистичное звучание речи с помощью Amazon Polly - более реалистичное, чем результаты, полученные с помощью Amazon Polly, для генерирования речевого аудиосигнала из обычного текстового ввода.Чтобы сделать это, я хочу сказать, чтобы Полли приложила все усилия, чтобы точно соответствовать данному образцу реального речевого аудиофайла, который был озвучен / записан голосовым актером.Другими словами, я хочу преобразовать вокализованную речь, созданную голосовым актером, в последовательность кодов некоторого вида (например, фонем, временных кодов и т. Д.), Подходящих в качестве входных данных для API-интерфейса Polly, которые затем могут создавать выходной аудиофайл, которыйследует максимально точно имитировать исходный записанный ввод.

Принимает ли какой-либо API-интерфейс AWS речевой аудиофайл в качестве входного сигнала и превращает его в серию кодов (например, фонемы и информацию о времени), которые затем могут быть переданы в API-интерфейс Polly для генерации соответствующей речевой обратной связи?Если нет, есть ли какой-нибудь другой API, который будет уместен для первого шага?

Почему?Использование Polly для создания речи «нормальным способом» - путем подачи текста в приложение polly - приводит к получению недостаточно естественного звучания речи (хотя это может быть лучшим из доступных на данный момент движком преобразования текста в речь).Речь Полли API, созданная «обычным способом», не имеет правильного времени / просодии.Мы попытались вручную преобразовать речевое слово в слово в фонемы и вручную добавить информацию о времени, а затем передать ее в API-интерфейс Polly в качестве входных данных, но это очень трудоемко и не дает очень удовлетворительного результата.Мы использовали это в приложениях.Для особенно важных частей речи нам нужно получить лучшее качество.Мы не можем использовать записанное аудио от голосового актера, как можно было бы при других обстоятельствах, потому что тогда оно не будет соответствовать остальной части речи, созданной API Polly.

Кстати, прежде чем вы проголосуете за этот пост, потому что в нем нет небольшого фрагмента кода ... учтите, что это все еще проблема кодирования, но не в форме "помогите мне отредактировать мой фрагмент кода наdo x '- хотя ответ из фрагмента кода будет хорошей формой для ответа на вопрос, если такой ответ существует!На самом деле это широко важная и общая проблема кодирования, которая потенциально затрагивает любого кодера, которому необходимо создавать реалистичную речь посредством кода.

Спасибо

Nikolay Shmyrev · Answer 1 · 24 ноября 2018

Принимает ли какой-либо API-интерфейс AWS речевой аудиофайл в качестве входного сигнала и превращает его в серию кодов (например, фонемы и информацию о времени), которые затем могут быть переданы в API-интерфейс Polly для создания соответствующей речевой обратной связи?

Вы серьезно думаете, что Amazon создал какой-то секретный API, скрытый от пользователей, но какой-нибудь храбрый хакер раскроет вам недокументированный код доступа к API здесь?

Если нет, есть ли другиеAPI, который будет подходящим для использования на первом этапе?

Это существует в открытом исходном коде, конечно, не связанном с AWS

https://github.com/KinglittleQ/GST-Tacotron

Использование Amazon Polly Text для речи, имитирующей интонацию реального речевого сигнала из аудиофайла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование Amazon Polly Text для речи, имитирующей интонацию реального речевого сигнала из аудиофайла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы