Я занимаюсь разработкой анимации LynSyn c Интеграция движка с GoogleTTS ... Я успешно подключил GoogleTTS к своей платформе, но обязательно получить меток метаданных меток времени вывода фонем от GoogleTTS, чтобы иметь качество lipsyn c.
Я нашел этот вопрос , но без обратной связи.
Есть ли пропускаемый мной запрос API, который может предоставить информацию об этих маркерах, такую как в случае IBM Watson и Amazon Polly ?, но я не могу найти какую-либо документацию, связанную с этим, в GCP.
пример
word: 0.923 1.722 humanity
phoneme: 0.923 0.983 h
phoneme: 0.983 1.023 y
phoneme: 1.023 1.067 uu
phoneme: 1.067 1.168 m
phoneme: 1.168 1.257 a
phoneme: 1.257 1.307 n
phoneme: 1.307 1.337 @
phoneme: 1.337 1.432 t
phoneme: 1.432 1.722 ii
phoneme: 1.722 1.822 sil
phoneme: 0.000 0.100 sil
Кто-нибудь знает об этом?