Это пример "проблемы вечеринки" или ее обобщения, " слепое разделение сигналов ".
К сожалению, хорошие алгоритмы существуют, если у вас есть N микрофонов, записывающих N динамиковпроизводительность слепых алгоритмов с меньшим количеством микрофонов, чем у источников, довольно плохая.Так что это не очень помогает.
Не существует какого-либо особенно надежного метода, о котором я знаю (конечно, не было пять лет назад), чтобы отделить ораторов даже с дополнительными данными.Вы можете быть в состоянии обучить классификатор аннотированных спектрограмм речи, чтобы он мог выбрать, кто есть кто, а затем, возможно, использовать независимое от говорящего распознавание голоса, чтобы попытаться выяснить, что говорится,а затем использовать трехмерные говорящие модели, используемые для высококачественных видеоигр или спецэффектов фильмов.Но это не сработает.
Было бы лучше нанять трех актеров для прослушивания кассеты, а затем каждый из них произносит часть одного из выступающих во время видеосъемки.Вы получите намного более реалистичный вид с гораздо меньшими затратами времени, усилий и денег.Если вы хотите, чтобы у вас было несколько 3D-персонажей, поместите маркеры на лицах актеров и запишите их положение, а затем используйте их в качестве контрольных точек на ваших 3D-моделях.