Почему в анализе спектра между Soni c Visualizer и моим Python сценарием разница в дБ? - PullRequest
3 голосов
/ 27 апреля 2020

Кажется, у меня проблема с реализацией функции для создания частотного спектра из аудиофайла. Я задаю этот вопрос в надежде, что кто-то найдет проблему.

Вы можете скачать 32-битный аудиофайл WAV здесь .

Я работаю над сценарием, который создание спектрального анализа из аудиофайла с использованием SciPy и NumPy. Прежде чем начать, я проанализировал файл с помощью Soni c Visualizer, который дал мне следующий результат:

Sonic Visualizer Result

Теперь я попытался воспроизвести этот результат используя мой Python скрипт, но получаю другой результат:

Script Result

Все выглядит правильно, кроме масштаба значений дБ. На частоте 100 Гц визуализатор Soni c находится на уровне -40 дБ, а мой сценарий на уровне -65 дБ. Итак, я предполагаю, что в моем скрипте есть проблема преобразования результата FFT в dBFS.

Если я сопоставлю кривую из Soni c Visualizer с выводом моего скрипта, очевидно, что при преобразовании уровней не хватает некоторого фактор:

Comparison

Минимальная версия моего скрипта, использующая файл 'demo.wav' выше, выглядит следующим образом:

from pathlib import Path

import matplotlib.pyplot as plt
import numpy as np
from scipy.io import wavfile as wavfile
from scipy.signal import savgol_filter

def db_fft(data, sample_rate):
    data_length = len(data)
    weighting = np.hanning(data_length)
    data = data * weighting
    values = np.fft.rfft(data)
    frequencies = np.fft.rfftfreq(data_length, d=1. / sample_rate)
    s_mag = np.abs(values) * 2 / np.sum(weighting)
    s_dbfs = 20 * np.log10(s_mag)
    return frequencies, s_dbfs

audio_file = Path('demo.wav')
frequency, data = wavfile.read(str(audio_file))
data = data[0:4096]
x_labels, s_dbfs = db_fft(data, frequency)
flat_data = savgol_filter(s_dbfs, 601, 3)
plt.style.use('seaborn-whitegrid')
plt.figure(dpi=150, figsize=(16, 9))
plt.semilogx(x_labels, s_dbfs, alpha=0.4, color='tab:blue', label='Spectrum')
plt.semilogx(x_labels, flat_data, color='tab:blue', label='Spectrum (with filter)')
plt.grid(True)
plt.title(audio_file.name)
plt.ylim([-160, 0])
plt.xlim([10, 10000])
plt.xlabel('Frequency [Hz]')
plt.ylabel('Amplitude [dB]')
plt.grid(True, which="both")
target_name = audio_file.parent / (audio_file.stem + '.png')
plt.savefig(str(target_name))

Скрипт преобразует 32-битный аудиофайл с плавающей запятой в диаграмму спектра dBFS, используя первые 4096 выборок в качестве окна, как это делает Soni c Visualizer.

Где проблема с моим скриптом почему я получаю другой результат?

Ответы [ 2 ]

4 голосов
/ 29 апреля 2020

1. Разные децибелы

Первое большое отличие состоит в том, что они используют определение «коэффициента мощности» децибела, начиная с этой страницы Википедии :

При выражении Отношение мощности, количество децибел в десять раз превышает логарифм к основанию 10.

Я также проверил это в исходном коде v4.0.1 (в строке svcore/base/AudioLevel.cpp 54)

double dB = 10 * log10(multiplier);

2. Расчет разной величины

Похоже, они просто делятся на размер окна в коде при вычислении величины. Это приводит к изменению расчета на

s_mag = np.abs(values) * 2  / data_length 

3. «Исправленный» результат

Я не нашел способа экспортировать их спектр, но я вручную считал первые несколько значений (обратите внимание, не значение дБ) как

theirvalues = [
    0.00074, 
    0.000745865, 
    0.00119605, 
    0.0013713, 
    0.0011812, 
    0.000746891, 
    0.000334177,
    0.000163241,
    7.57671e-5,
    3.17983e-5,
    2.91934e-5,
    3.74938e-5
]

с Из двух упомянутых выше изменений графики сравниваются следующим образом:

Comparison graph

Это все еще не точное совпадение, но оно намного ближе. Я подозреваю, что все еще может быть какое-то сглаживание (в коде есть ссылки на прыжки, но я не могу точно выяснить, что они делают).

0 голосов
/ 29 апреля 2020

Как вы заметили, ваши два результата отличаются постоянным коэффициентом, который составляет примерно 2.

Из Википедия о децибелах (мой акцент):

При выражении соотношения в децибелах используются две разные шкалы в зависимости от характера величин: мощность и поле (root -сила). При выражении отношения мощностей число децибел в десять раз превышает его логарифм к основанию 10. [2] То есть изменение мощности в 10 раз соответствует изменению уровня на 10 дБ. При выражении величин поля (root -power) изменение амплитуды в 10 раз соответствует изменению уровня на 20 дБ. Шкалы децибел отличаются в два раза , поэтому соответствующие уровни мощности и поля изменяются на одинаковое количество децибел с линейными нагрузками.

Вы используете коэффициент 10.

s_dbfs = 20 * np.log10(s_mag)

Если вы измените скаляр на 20, вы получите это изображение:

enter image description here

Это может или не может объяснить вашу разницу шкалы. Исходный код визуализатора soni c находится на sourceforge, поэтому его должно быть легко проверить (sourceforge не позволяет мне устанавливать политику отслеживания, поэтому я сам туда не пойду).

...