Быстрое преобразование Фурье для файла .wav дает странные результаты - PullRequest
0 голосов
/ 02 декабря 2018

Я пишу визуализатор частоты для файлов .wav.Я использую SDL для извлечения данных из файла, чтобы я мог выполнить быстрое преобразование Фурье для вычисления величины каждой частоты.

Насколько я могу сказать, все, что я даю, БПФ правильно, но функциявыдаёт странные результаты, и я не могу понять, почему.

Когда я не выполняю оконную функцию до преобразования Фурье, я получаю правильный результат изатем ~ 5 неправильных результатов, которые близки к 20000 Гц и кажутся случайными, поэтому я не могу предсказать, что они должны были означать.Я подозревал, что это может быть из-за спектральной утечки, поэтому я попытался запустить оконную функцию перед преобразованием, но после этого я получаю одну и ту же неправильную частоту каждую итерацию.

ПРИМЕЧАНИЕ: ЭТО БЕЗ АWINDOWING FUNCTION

Вот тест, когда я запускаю его с этим аудио https://www.youtube.com/watch?v=qNf9nzvnd1k:

30 20480 20480 20470 20490 20480 20480 20470 x 20470 20480 20480 20480 20480 20480 2048020480 20490 х 20480 20480 20480 20480 20480 20480 хх 20490 20480 20480 хх 20470 20480 хх 20480 20470 х 20480 х 20480 10 20480 20490 20480 х 20480 х 20480 20480 х 20470 х 10 * 20 *1023* 10* здесь будет правильное значение, которое изменяется в зависимости от того, что ожидается от него во всем клипе.

Моя проблема в том, что мне нужно правильное значение на каждой итерации, в противном случае я получаю неаккуратную анимацию.

main.cpp:

#include "visualization.h"
#define FILE_PATH "audiosamples/test.wav" //https://www.youtube.com/watch?v=qNf9nzvnd1k
#define PI 3.14159265359

/*
freq = i * Fs / N;      (1)
where,
freq = frequency in Hertz,
i = index (position of DFT output or can also think of it as representing the number of cycles)
Fs = sampling rate of audio,
N = size of FFT buffer or array.

To explain further, lets say that:

N = 4096          //a buffer that holds 4096 audio data samples
Fs = 44100       //a common sample rate [frames per sec] for audio signals: 44.1 kHz

The spectral bin numbers aka frequency bins using equation (1) from above would be:

    bin:      i      Fs         N            freq
     0  :     0  *  44100 /  2048  =        0.0 Hz
     1  :     1  *  44100 /  2048  =        21.5 Hz
     2  :     2  *  44100 /  2048  =        43 Hz
     3  :     3  *  44100 /  2048  =        64.5 Hz
     4  :     ...
     5  :     ...

   1024 :    1024 * 44100 /  2048  =        22.05 kHz
*/

SDL *visualization = nullptr;

Uint8* sampData;
SDL_AudioSpec wavSpec;
SDL_AudioSpec obtained;
Uint8* wavStart;
Uint32 wavLength;
SDL_AudioDeviceID aDevice;
double arrSamples[4096];
double max_magnitude_index;


struct AudioData {
    Uint8* filePosition;
    Uint32 fileLength;
};

void PlayAudioCallback(void* userData, Uint8* stream, int streamLength) {
    AudioData* audio = (AudioData*)userData;
    sampData = (Uint8*)stream;
    double magnitude[4096];
    fftw_complex x[4096], y[4096];
    double max_magnitude = 0;

    if (audio->fileLength == 0) {
        return;
    }

    Uint32 length = (Uint32)streamLength;
    length = (length > audio->fileLength ? audio->fileLength : length);
    std::vector<double> samples (stream, stream + length);

    for( int i = 0; i < 4095; i ++ ){
        double multiplier = 0.5 * (1 - cos((2*PI*i)/4095));
    //  x[i][REAL] = multiplier * (double)samples[i];
        x[i][REAL] = (double)samples[i];
        x[i][IMAG] = 0.0;
    //  std::cout << i << " - " << x[i][REAL] << std::endl << std::flush;
    }

    fftw_plan plan = fftw_plan_dft_1d( 4096, x, y,  FFTW_FORWARD, FFTW_ESTIMATE );
    fftw_execute(plan);

    for( int i = 0; i < 4095; i ++ ){
        if( y[i][IMAG] < 0 ){
            magnitude[i] = sqrt( y[i][REAL] * y[i][REAL] + y[i][IMAG] * y[i][IMAG] );
        }
        else{
            magnitude[i] = sqrt( y[i][REAL] * y[i][REAL] + y[i][IMAG] * y[i][IMAG] );
        }
    }
    for( int i = 1; i < 4095; i ++ ){
        if( magnitude[i] > max_magnitude ){
            max_magnitude = magnitude[i];
            max_magnitude_index = i;
        }
    }
    int freq = max_magnitude_index * ( 44100 / 4096 );
    if ( freq < 20000 ){
        std::cout << freq << std::endl << std::flush;
    }

//  SDL_memcpy(&in, sampData, sizeof(sampData));
    SDL_memcpy(stream, audio->filePosition, length);


    audio->filePosition += length;
    audio->fileLength -= length;

}

int main() {
    int cnt = 0;

    visualization = new SDL();
    visualization -> init( "asd", 100, 0, 800, 400, false );
    SDL_Init(SDL_INIT_AUDIO);

    if (SDL_LoadWAV(FILE_PATH, &wavSpec, &wavStart, &wavLength) == NULL) {
        std::cerr << "Couldnt load file: " << FILE_PATH << std::endl;
        getchar();
    }
    std::cout << "Loaded " << FILE_PATH << std::endl;

    AudioData audio;
    audio.filePosition = wavStart;
    audio.fileLength = wavLength;
    wavSpec.samples = 4096;

    wavSpec.callback = PlayAudioCallback;
    wavSpec.userdata = &audio;


    aDevice = SDL_OpenAudioDevice( NULL, 0, &wavSpec, &obtained, SDL_AUDIO_ALLOW_FREQUENCY_CHANGE);
    if (aDevice == 0) {
        std::cerr << "Audio Device connection failed: " << SDL_GetError() << std::endl;
        getchar();
    }
    SDL_PauseAudioDevice(aDevice, 0);

    std::cout << obtained.samples << std::endl << std::flush;

    while( visualization -> running () ){
        visualization -> handleEvents();
        visualization -> render();
        cnt ++;
        visualization -> update(max_magnitude_index, cnt);
    }

    visualization->clean();

    return 0;
}
...