Проблема, которую мне нужно решить, я считаю, не слишком сложна, но я новичок в распознавании речи / ораторов и, следовательно, буду очень признателен за некоторую помощь.
Для моего проекта phd я собрал несколько данные собеседования, где у каждого выступающего есть один микрофон, прикрепленный к их одежде. Микрофоны достаточно чувствительны, чтобы подобрать оба динамика, но (очевидно) с разной громкостью. Поэтому для каждого собеседования у меня есть два wav-файла: один, в котором громкоговоритель 1 громче, и один, в котором громкоговоритель 2 громче.
Мне нужно записать эти файлы в двоичном формате, в идеале заканчивая кучей файлов wav содержит повороты динамика (пока не требуется транскрипция). Я попытался выполнить фильтрацию по громкости, которая заставляет громкоговоритель с низкой громкостью выводить файлы только с громкоговорителями. Однако разделение не очень хорошее, особенно там, где повороты изменяются или есть перекрывающаяся речь, поэтому очевидно, что порог громкости недостаточен. Есть идеи как это улучшить? В идеале, в python, но я возьму все что угодно.
Кроме того, мой вывод - один файл на динамик, а не куча поворотов. Есть ли простой способ получить один WAV за ход?
Я не могу использовать функции, требующие моего, чтобы загрузить вещи в облако.
Большое спасибо заранее (надеюсь, вопрос не Дублированный, я весь день искал и не нашел).