Если я правильно понимаю, и если спектрограмма построена на неперекрывающихся «скользящих окнах», вы можете просто сделать обратное БПФ для каждого временного блока и объединить их для восстановления аудиосигнала. Затем вы выполняете обратную операцию, которую вы сделали, чтобы преобразовать изображение в аудио.