преобразование видео / аудио в текст (распознавание речи / речи) - PullRequest
0 голосов
/ 26 марта 2020

В Python есть много API, которые преобразуют видео / аудио в текст, но я с нетерпением жду возможности найти способ сопоставления времени (слов), сказанных с текстом, в формате словаря. Кто-нибудь знает, существует ли какой-либо API для этого?

Например:

Ввод:

Audio.mp4

Hello (1-я секунда), ( жду две секунды) [Мое имя] (4 секунда) [это Джон] (5 секунда).

вывод: (число в секундах) {1: «Привет», 2: «», 3: «», 4: «Мое имя», 5: «это Джон»}

...