В документации говорится о mel_to_audio
:
Это в первую очередь удобная оболочка для:
S = librosa.feature.inverse.mel_to_stft(M)
y = librosa.griffinlim(S)
Другими словами сгенерированная спектрограмма Mel используется для аппроксимации величины STFT. Затем спектрограмма STFT преобразуется обратно во временную область с использованием алгоритма Griffin Lim .
Преобразование из спектрограммы Mel в STFT не является полностью без потерь (могут быть перекрывающиеся частотные диапазоны из-за перекрывающиеся три angular фильтры , используемые при построении спектрограммы Мела), и преобразование из спектрограммы звездной величины STFT во временную область (т. Е. В аудио), безусловно, не является совершенным, поскольку спектрограмма магнитуд STFT имеет отсутствует информация о фазе, которая должна быть аппроксимирована с использованием алгоритма Гриффина Лима. Это приближение никогда не бывает идеальным и вводит фазовые артефакты (metalli c "phasiness").
Не использование шкалы Mel, а просто использование STFT и обратного STFT приводит к гораздо лучшим результатам. Однако, как только вы начнете манипулировать чем-либо в частотной области до инверсии, вы столкнетесь с аналогичными проблемами, но, вероятно, не такими большими, как при использовании спектрограммы Mel.