Hy Community,
Я работал с API Google TXT для речи.
Когда я хочу кодировать аудиофайл WAV (извлеченный из видео), отметки временидля некоторых слов не очень точно. (разрешение в соответствии с Google составляет 0,1 сек - но в моем случае иногда оно более слабое / задержка).
Я думал, что могу попробовать обходной путь, уменьшив скорость аудиофайла, но это больше илименее тот же результат.
Кто-нибудь знает какие-то точные API для распознавания речи или есть советы по лучшей подготовке аудиофайлов?
Я хотел бы определить одно за другим слово, включая их точные метки времени.
Большое спасибо!