Я новичок в Python и librosa.Я пытаюсь следовать этому методу для распознавателя речи: Акустический интерфейс
Мой код:
import librosa
import librosa.display
import numpy as np
y, sr = librosa.load('test.wav', sr = None)
normalizedy = librosa.util.normalize(y)
stft = librosa.core.stft(normalizedy, n_fft = 256, hop_length=16)
mel = librosa.feature.melspectrogram(S=stft, n_mels=32)
melnormalized = librosa.util.normalize(mel)
mellog = np.log(melnormalized) - np.log(10**-5)
Проблема заключается в том, что при применении librosa.util.Я ожидаю, что значения будут в диапазоне от 1 до -1, а это не так.Что мне не хватает?