Question

Я пытаюсь проанализировать звук песни, используя библиотеку python, выходной файл представляет собой пустой массив, массив очень большой по размеру, поскольку MFCC рассчитывается для каждого кадра аудио. Когда я записываю этот вывод в файл, каждая песня имеет выход около 3-4 МБ. Есть ли способ свести N кадров информации в один ряд функций?

click here]([![MFCC outut )

jonnor · Answer 1 · 02 декабря 2018

Обычная практика - группировать последовательные кадры в окна последовательности, вычислять агрегированную статистику по каждому окну текстуры и затем снова суммировать ее, используя агрегированную статистику.

Статистика рассчитывается для каждой входной функции (диапазон MFCC в вашем случае). Примером статистических функций будет среднее значение, стандартное отклонение, мин, макс. Размер текстуры может составлять от 1 до 60 секунд.

См. Низкоуровневые элементы и тембр, Хуан Пабло Белло, MPATE-GE 2623 Поиск информации о музыке

Уменьшить выход MFCC

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Уменьшить выход MFCC

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы