from librosa.feature import mfcc
from librosa.core import load
def extract_mfcc(sound):
data, frame = load(sound)
return mfcc(data, frame)
mfcc = extract_mfcc("sound.wav")
Я хотел бы получить MFCC следующего файла sound.wav , который 48 секунд длиной .
Я понимаю, что data * frame = length of audio.
Но когда я вычисляю MFCC, как показано выше, и получаю его форму, это результат: (20, 2086)
Что означают эти цифры?
Как я могу рассчитать время аудио только по его MFCC?
Я пытаюсь вычислить среднее значение MFCC за мс звука.
Любая помощь приветствуется! Спасибо:)