Вы можете легко исправить фазу, просто сместив их так, чтобы их центры масс выстроились в линию. (Или, в качестве альтернативы, в области Фурье просто умножение на инверсию фазы первого коэффициента.)
Точно так же, если вы хотите выстроить изображения с учетом только частичных данных, вы можете просто выполнить взаимную корреляцию и принять максимальное значение (что снова легко сделать в области Фурье).
Это оставляет единственную сложную часть этого процесса, связанную с частотой дискретизации. Теперь, если вы априори знаете, каковы частоты дискретизации (и если они связаны рациональным числом), вы можете просто использовать sinc-интерполяцию / понижающую дискретизацию, чтобы масштабировать их до общей частоты дискретизации:
https://ccrma.stanford.edu/~jos/st/Bandlimited_Interpolation_Time_Limited_Signals.html
Если вы не знаете частоту дискретизации, возможно, вы немного облажались. Технически, вы можете попробовать просто грубое форсирование всех различных пересчетов вашего сигнала, но это может быть либо медленным, либо дать посредственные результаты.
В качестве последнего предложения, если вы просто хотите точно подобрать звуки, вы можете попробовать использовать кепстр и убедиться, что пики сигнала достаточно близки, чтобы в пределах некоторого допуска. Этот тип анализа широко используется в распознавании звука и речи, с некоторыми уточнениями, чтобы он работал немного локально. Он лучше всего работает с частотно-модулированными данными, такими как речь и музыка:
http://en.wikipedia.org/wiki/Cepstrum