С Sound.extract вы получаете необработанные звуковые данные на частоте 44100 Гц Stereo, что фактически означает два «канала».
Если вы объединяете два звука в один файл и хотите обрабатывать их по отдельности, вам нужно будет хранить каждый из них в отдельном канале, тогда вы можете программно делать все, что хотите, с ними изолированно.
Обратите внимание, что вы не можете использовать SoundMixer.computeSpectrum () для создания визуализаций, поскольку в настоящее время это не разрешено делать динамически (см. Документы API), вам придется самостоятельно обрабатывать необработанные звуковые данные.