Мне нужно создать веб-приложение, в которое вы загружаете аудиофайл, и в качестве результата вы получаете количество аудиофайлов, равное количеству ораторов, участвующих в разговоре.Например, если вы загрузите запись радиопостановки с участием двух спикеров, приложение проанализирует файл и разделит запись на 2 аудиофайла, где каждый спикер говорит отдельно.
Теперь мне нужна небольшая помощь в отношенииAPI, который я должен использовать, я определенно не способен разрабатывать такую технологию, но мне интересно, есть ли какой-нибудь API, который позволил бы мне сделать это.
Я провел некоторое исследование и нашел этот проект наGithub, связанный с Microsoft Speaker Recognition API.https://github.com/Microsoft/Cognitive-SpeakerRecognition-Windows
Лучше всего начать с этого?Любые рекомендации очень ценятся.
Спасибо