Я новичок в аудиопроцессинге, и мне нужна помощь для моего проекта.
Может ли кто-нибудь объяснить мне разницу между типом данных, возвращаемых librosa.load, и scipy.io.wavefile.read? Первый дает массив с плавающей точкой, а второй - целочисленный. И забавно то, что размер возвращаемого массива в обоих случаях различен.
Пожалуйста, дайте некоторое представление об этом.
(Вы можете использовать свой собственный аудиофайл для воспроизведения проблемы)
sig, sr = librosa.core.load(filepath, sr=None)
sig[:10]
array([ 0.00262944, 0.00108277, -0.00248273, -0.00865669, -0.0161767 ,
-0.01958228, -0.01867038, -0.01742653, -0.01652605, -0.01589082],
dtype=float32)
sr, y = scipy.io.wavfile.read(filepath)
y[:10]
array([ 94, -10, -217, -564, -627, -582, -527, -520, -440, -349],
dtype=int16)
print(sig.shape)
(7711,)
y.shape
(5595,)