Как я могу обнаружить наличие (и рассчитать степень) перекрывающихся динамиков в аудиофайле? - PullRequest
0 голосов
/ 14 января 2019

У меня есть коллекция аудиофайлов WAV, которые содержат записи трансляции. В основном аудио части видеозаписей новостных передач и т. Д. (У меня нет оригинальных видео). Мне нужно оценить, какой% возраста этих файлов имеет перекрывающихся динамиков, то есть когда два или более человека говорят более или менее одновременно. И для тех файлов, где перекрытие действительно имеет место, какой процент возрастов перекрывается речью. Мне все равно, если одновременно разговаривают 2, 3 или 23 человека, если их больше 1. Пол, возраст и т. Д. Тоже не имеют значения. С другой стороны, эти записи на разных языках, различного качества и могут также содержать фоновые шумы (уличные звуки, музыка и т. Д.). Таким образом, эта проблема кажется проще, чем диаризация динамика, но имеет осложняющие факторы.

Итак, есть ли библиотека (предпочтительно Python) или инструмент командной строки, который может сделать это из коробки? Тот, который не требует какого-либо контролируемого обучения (то есть, у меня нет никаких помеченных данных для обучения). Обучение без присмотра может быть в порядке, но я предпочитаю избегать его тоже.

Спасибо

ОБНОВЛЕНИЕ: Обработка этих файлов в нисходящем направлении может определить задачу немного лучше: в конечном счете, мы обработаем их с помощью ASR, чтобы проиндексировать полученные транскрипты для поиска по ключевым словам. Когда мы ищем ключевое слово «бла» в записи с несколькими ораторами, нам не важно, кто из них произнес это слово, пока кто-нибудь из них это сделал. Интуитивно понятно, что «бла» правильно из записи, в которой есть несколько ораторов, но каждый внимательно ждет своей очереди, будет легче, чем когда все говорят одновременно. Я пытаюсь измерить степень совпадения этих записей. Среди прочего, это позволит мне количественно сравнить 2 набора таких записей и сделать вывод, что одна сложнее другой.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...