Я неправильно понимаю некоторые параметры в STFT.
У меня есть файл WAV с частотой дискретизации 16000. Это 9 минут. Соп это означает, что число выборок моего файла равно = 9 (мин) * 60 (сек) * 16000 (SR) = 8640000.
Теперь я хочу сделать STFT. Конечная цель, которую я имею, состоит в том, чтобы посчитать количество ненулевых столбцов STFT (столбец показывает частоту, а строки показывают время), а также узнать точное время их.
Если я использую частоту дискретизации 16000, и я выбрал N-FFT = 2048, то у меня будет матрица с формой (1025, 16876) для спектрограммы, что означает, что 1025 количество частотных бинов и 16876 выборок в время. Теперь я хочу знать, в каком столбце времени есть нулевая амплитуда во всей частоте. Если я сделаю сумму по всем столбцам и вычислю это число, у меня будет предполагаемое число, равное A.
В другом раунде, если я выбрал N-FFT = 4096, и я повторяю весь процесс, спектрограмма будет иметь форму (2049, 8438), а конечный выход для нулевой амплитуды будет равен B. А здесь B
Теперь у меня три вопроса.
1- Все ли, что я сказал, правда?
2- Как я могу определить подходящее число для N-FFT для достижения подходящего конечного результата?
3- Если я изменю частоту дискретизации, количество финальных выходов изменится. Как эти параметры связаны друг с другом и как я могу выбрать подходящую частоту дискретизации?