При синтезе дифонов принято разделять дифоны в середине телефона, где он наиболее стабилен, и таким образом соединять их вместе. Так, например, чтобы синтезировать слово «встреча», я бы начал с телефона m iy
(в символах ARPAbet), затем обрезал его в середине iy
и разделил на дифон iy dx
, в котором оба телефоны были разделены пополам, и так далее, заканчивая ix ng
дифоном, где ng
завершен.
Чтобы сделать это, вам нужно знать индекс времени в каждой .ogg, который соответствует середине непрерывного телефона или промежутку между закрытием и снятием остановки.