Question

я пытаюсь сделать так, чтобы голос распознавал видео с YouTube и автоматически получал метаданные каждого предложения и временную шкалу в зависимости от того, что говорит человек на видео. Например, если кто-то на видео говорит «привет, youtube» из 04:32 ~ 4:33, то я бы хотел, чтобы каждое предложение этого человека указывалось с начальной точкой и конечной точкой шкалы времени. Поэтому возвращаемое значение будет выглядеть так:

{
   content: "hello, youtube",
   start : 432,
   end : 433
}

Это нормально, я могу использовать два разных API и объединить их вместе. Я хотел бы услышать некоторые идеи.

API с открытым исходным кодом для обнаружения голоса из видео YouTube

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

API с открытым исходным кодом для обнаружения голоса из видео YouTube

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов