Мне нужно знать из видеофайла, как извлечь все аудио-метки времени, означающие время начала и время окончания каждого диалога. Попробовал с несколькими командами ffmpeg или ffprobe, но не получил желаемого результата.
Мой результат желаний будет таким:
{'text': "Привет, Роберт! Как дела", "start": 0.15, "end": 1.00} {'text': «Эй, я в порядке. А ты?», «Начало»: 1,35, «конец»: 2,05}. .