Аудио-файл Split для распознавания речи предложений - PullRequest
0 голосов
/ 24 января 2019

Много достижений было сделано в области распознавания речи. Большинство современных систем распознают только небольшой фрагмент аудио (4-10 секунд), который считается полным предложением. Это хорошо для обучения, но не для вывода на производстве, в то время как мы можем получить длинный аудиофайл (например, 1 час), и мы хотим применить к нему ASR.

Типичный подход заключается в применении речевого разделителя, например py-webrtcvad, для разделения звука. Тем не менее,

1) Возможно, звук прерывается в середине слова, которое произносится очень медленно

2) Динамик может говорить очень быстро, поэтому будет выделяться 1-2 минуты. И, как сказано, не может справиться с этими длинными кусками (только 4-10 секунд в порядке).

Как разделить звук для распознавания речи? Есть какой-нибудь инструмент для этого?

...