Определить речевую активность (2 динамика) в аудиозаписи - PullRequest
0 голосов
/ 16 октября 2018


Цель:
Я хочу извлечь сегменты (временные коды) речевой деятельности в аудиозаписи, содержащей два динамика.Оптимально решение должно назначить метку сегментам «Динамик 1» или «Динамик 2».
Проблема:
Я обнаружил VAD (обнаружение голосовой активности) и идентификацию динамика.Однако я не совсем уверен, что это то, что я ищу, потому что VAD не доставляет метки (Динамик 1 или 2), и Идентификация Динамиков кажется слишком высоким уровнем (так как он используется для аутентификации в течение нескольких сеансов) иЯ получил только несколько записей (~ 10 с разными динамиками на каждую запись.)

Вопрос:
Есть ли решение для моей проблемы (автоматическая сегментация)?Я ищу правильные фразы ( VAD и Идентификация динамика ).Можете ли вы порекомендовать простую для реализации библиотеку VAD Python?

...