API с открытым исходным кодом для обнаружения голоса из видео YouTube - PullRequest
0 голосов
/ 29 января 2020

я пытаюсь сделать так, чтобы голос распознавал видео с YouTube и автоматически получал метаданные каждого предложения и временную шкалу в зависимости от того, что говорит человек на видео. Например, если кто-то на видео говорит «привет, youtube» из 04:32 ~ 4:33, то я бы хотел, чтобы каждое предложение этого человека указывалось с начальной точкой и конечной точкой шкалы времени. Поэтому возвращаемое значение будет выглядеть так:

{
   content: "hello, youtube",
   start : 432,
   end : 433
}

Это нормально, я могу использовать два разных API и объединить их вместе. Я хотел бы услышать некоторые идеи.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...