Распознавание речи с точной отметкой времени? - PullRequest
1 голос
/ 07 октября 2019

Hy Community,

Я работал с API Google TXT для речи.

Когда я хочу кодировать аудиофайл WAV (извлеченный из видео), отметки временидля некоторых слов не очень точно. (разрешение в соответствии с Google составляет 0,1 сек - но в моем случае иногда оно более слабое / задержка).

Я думал, что могу попробовать обходной путь, уменьшив скорость аудиофайла, но это больше илименее тот же результат.

Кто-нибудь знает какие-то точные API для распознавания речи или есть советы по лучшей подготовке аудиофайлов?

Я хотел бы определить одно за другим слово, включая их точные метки времени.

Большое спасибо!

Ответы [ 2 ]

0 голосов
/ 08 октября 2019

Современные алгоритмы распознавания речи обменивают точность выравнивания на скорость декодирования, поэтому может быть так, что распознаватель Google не назначает очень точные временные метки.

Более точное выравнивание возможно с помощью распознавателя с открытым исходным кодом, такого как Kaldi,см https://github.com/lowerquality/gentle или что-то подобное. Вам нужно будет изменить результаты Google, чтобы получить правильные временные метки.

0 голосов
/ 07 октября 2019

Здесь вы можете найти лучшие практики для облачной речи в текст.

Все мэрские облачные проигрыватели имеют хорошие API для распознавания речи. Вы можете проверить IBM или Amazon решения.

...