Это самый простой способ думать о начале заметки:
думать о музыкальном сигнале как о плоском постоянном сигнале. Когда и начинается, вы смотрите на это как на большое быстрое ИЗМЕНЕНИЕ сигнала (положительный или отрицательный пик)
Что это означает в частотной области:
FT постоянного сигнала, ну, ПОСТОЯННО! и плоский
Когда происходит наступление события, происходит быстрое увеличение спектрального содержания.
Хотя вы можете подумать: «Ну, вы на самом деле говорите о пике наступления, верно?» не за что. Мы на самом деле не заинтересованы в пике начала, а скорее в нарастающем фронте сигнала. Когда происходит резкое увеличение сигнала, высокочастотное содержимое увеличивается.
Один из способов сделать это - использовать функцию спектральной разности:
1) взять сигнал временной области и разрезать его на перекрывающиеся полосы (обычно 50% перекрытия)
2) применить окно Хемминга / Ханна (это должно уменьшить спектральное загрязнение) (помните, что разрезание сигнала на окна похоже на умножение его на импульс, в частотной области это как свертывание сигнала с функцией sinc)
3) Применить алгоритм FFT к двум последовательным окнам
4) Для каждой ячейки DFT рассчитайте разницу между ячейками Xn и Xn-1, если она отрицательна, установите ее на ноль
возведите в квадрат результаты и суммируйте все бины вместе
5) повторить до конца сигнала.
6) ищите пики в сигнале, используя медианный порог, и у вас есть время начала!
Источник:
http://bingweb.binghamton.edu/~ahess2/Onset_Detection_Nov302011.pdf
и
http://www.elec.qmul.ac.uk/people/juan/Documents/Bello-TSAP-2005.pdf