Можете ли вы вытащить фонемы? Вы можете обратиться к этим таблицам фонем-визем, чтобы выполнить преобразование. Вы можете попробовать использовать espeak для преобразования текста -> фонемы. Если вы не возражаете, просто грубая синхронизация c, вы можете сравнить длительность вывода espeak с выводом tacotron2.