Нет такого программного обеспечения. Разбиение произвольной речи на составляющие ее фонемы является лишь частично решенной проблемой: преобразование речи в текст все еще несовершенно, как и преобразование текста в речь .
Идея состоит в том, чтобы воспроизвести тембр голоса цели. Даже если бы вы смогли идеально сегментировать звук, переупорядочивание фонем произвело бы звук с неестественной частотой и интонацией, не говоря уже о артефактах сплайсинга. В этот момент вы переходите к сглаживанию, масштабированию по времени и коррекции высоты тона, которые все возможны и понятны в теории, но плохо работают с данными реального мира, особенно когда рассматриваемый аудиосэмпл такой короткий, как одна фонема и далее, когда тембр необходимо сохранить.
Эти проблемы с фонетической стороны усугубляются аллофоническим изменением звуков в зависимости от акцента и окружающих фонем; чтобы достоверно воспроизводить даже низкокачественное приближение звука, вам необходимо детальное понимание языка, акцента и речевых шаблонов цели.
Кроме того, вашей конечной проблемой является социальная инженерия , и людей нелегко обмануть, когда речь заходит о голосах людей, которых они знают. Даже при большом объеме входных данных в лучшем случае можно получить короткий некачественный образец, которого вряд ли хватит для разговора.
Так что, хотя это, конечно, возможно, это сложно; даже если бы он существовал, он не всегда был бы достаточно хорош.