Кажется, у меня проблема с реализацией функции для создания частотного спектра из аудиофайла. Я задаю этот вопрос в надежде, что кто-то найдет проблему.
Вы можете скачать 32-битный аудиофайл WAV здесь .
Я работаю над сценарием, который создание спектрального анализа из аудиофайла с использованием SciPy и NumPy. Прежде чем начать, я проанализировал файл с помощью Soni c Visualizer, который дал мне следующий результат:
Теперь я попытался воспроизвести этот результат используя мой Python скрипт, но получаю другой результат:
Все выглядит правильно, кроме масштаба значений дБ. На частоте 100 Гц визуализатор Soni c находится на уровне -40 дБ, а мой сценарий на уровне -65 дБ. Итак, я предполагаю, что в моем скрипте есть проблема преобразования результата FFT в dBFS.
Если я сопоставлю кривую из Soni c Visualizer с выводом моего скрипта, очевидно, что при преобразовании уровней не хватает некоторого фактор:
Минимальная версия моего скрипта, использующая файл 'demo.wav' выше, выглядит следующим образом:
from pathlib import Path
import matplotlib.pyplot as plt
import numpy as np
from scipy.io import wavfile as wavfile
from scipy.signal import savgol_filter
def db_fft(data, sample_rate):
data_length = len(data)
weighting = np.hanning(data_length)
data = data * weighting
values = np.fft.rfft(data)
frequencies = np.fft.rfftfreq(data_length, d=1. / sample_rate)
s_mag = np.abs(values) * 2 / np.sum(weighting)
s_dbfs = 20 * np.log10(s_mag)
return frequencies, s_dbfs
audio_file = Path('demo.wav')
frequency, data = wavfile.read(str(audio_file))
data = data[0:4096]
x_labels, s_dbfs = db_fft(data, frequency)
flat_data = savgol_filter(s_dbfs, 601, 3)
plt.style.use('seaborn-whitegrid')
plt.figure(dpi=150, figsize=(16, 9))
plt.semilogx(x_labels, s_dbfs, alpha=0.4, color='tab:blue', label='Spectrum')
plt.semilogx(x_labels, flat_data, color='tab:blue', label='Spectrum (with filter)')
plt.grid(True)
plt.title(audio_file.name)
plt.ylim([-160, 0])
plt.xlim([10, 10000])
plt.xlabel('Frequency [Hz]')
plt.ylabel('Amplitude [dB]')
plt.grid(True, which="both")
target_name = audio_file.parent / (audio_file.stem + '.png')
plt.savefig(str(target_name))
Скрипт преобразует 32-битный аудиофайл с плавающей запятой в диаграмму спектра dBFS, используя первые 4096 выборок в качестве окна, как это делает Soni c Visualizer.
Где проблема с моим скриптом почему я получаю другой результат?