В Python есть много API, которые преобразуют видео / аудио в текст, но я с нетерпением жду возможности найти способ сопоставления времени (слов), сказанных с текстом, в формате словаря. Кто-нибудь знает, существует ли какой-либо API для этого?
Например:
Ввод:
Audio.mp4
Hello (1-я секунда), ( жду две секунды) [Мое имя] (4 секунда) [это Джон] (5 секунда).
вывод: (число в секундах) {1: «Привет», 2: «», 3: «», 4: «Мое имя», 5: «это Джон»}