Существует какой-либо хороший API или библиотека, которую можно использовать для извлечения временных меток из существующего аудиофайла с файлом transpon.do c файла coresponding?
Например, я уже пробовал: https://cloud.google.com/speech-to-text/docs/async-time-offsets#speech -asyn c -recognize-gcs-protocol
Но там я не могу предоставить расшифровку (которая у меня уже есть). Также я получил очень плохой результат из Google Cloud API.