Уменьшить выход MFCC - PullRequest
       27

Уменьшить выход MFCC

0 голосов
/ 15 ноября 2018

Я пытаюсь проанализировать звук песни, используя библиотеку python, выходной файл представляет собой пустой массив, массив очень большой по размеру, поскольку MFCC рассчитывается для каждого кадра аудио. Когда я записываю этот вывод в файл, каждая песня имеет выход около 3-4 МБ. Есть ли способ свести N кадров информации в один ряд функций?

click here]([![MFCC outut)

1 Ответ

0 голосов
/ 02 декабря 2018

Обычная практика - группировать последовательные кадры в окна последовательности, вычислять агрегированную статистику по каждому окну текстуры и затем снова суммировать ее, используя агрегированную статистику.

Статистика рассчитывается для каждой входной функции (диапазон MFCC в вашем случае). Примером статистических функций будет среднее значение, стандартное отклонение, мин, макс. Размер текстуры может составлять от 1 до 60 секунд.

См. Низкоуровневые элементы и тембр, Хуан Пабло Белло, MPATE-GE 2623 Поиск информации о музыке

...