я пытаюсь сделать так, чтобы голос распознавал видео с YouTube и автоматически получал метаданные каждого предложения и временную шкалу в зависимости от того, что говорит человек на видео. Например, если кто-то на видео говорит «привет, youtube» из 04:32 ~ 4:33, то я бы хотел, чтобы каждое предложение этого человека указывалось с начальной точкой и конечной точкой шкалы времени. Поэтому возвращаемое значение будет выглядеть так:
{
content: "hello, youtube",
start : 432,
end : 433
}
Это нормально, я могу использовать два разных API и объединить их вместе. Я хотел бы услышать некоторые идеи.