Диаризация динамиков с различными объемами в Python - PullRequest
0 голосов
/ 28 апреля 2020

Проблема, которую мне нужно решить, я считаю, не слишком сложна, но я новичок в распознавании речи / ораторов и, следовательно, буду очень признателен за некоторую помощь.

Для моего проекта phd я собрал несколько данные собеседования, где у каждого выступающего есть один микрофон, прикрепленный к их одежде. Микрофоны достаточно чувствительны, чтобы подобрать оба динамика, но (очевидно) с разной громкостью. Поэтому для каждого собеседования у меня есть два wav-файла: один, в котором громкоговоритель 1 громче, и один, в котором громкоговоритель 2 громче.

Мне нужно записать эти файлы в двоичном формате, в идеале заканчивая кучей файлов wav содержит повороты динамика (пока не требуется транскрипция). Я попытался выполнить фильтрацию по громкости, которая заставляет громкоговоритель с низкой громкостью выводить файлы только с громкоговорителями. Однако разделение не очень хорошее, особенно там, где повороты изменяются или есть перекрывающаяся речь, поэтому очевидно, что порог громкости недостаточен. Есть идеи как это улучшить? В идеале, в python, но я возьму все что угодно.

Кроме того, мой вывод - один файл на динамик, а не куча поворотов. Есть ли простой способ получить один WAV за ход?

Я не могу использовать функции, требующие моего, чтобы загрузить вещи в облако.

Большое спасибо заранее (надеюсь, вопрос не Дублированный, я весь день искал и не нашел).

...