Понимание результатов MFCC - PullRequest
0 голосов
/ 21 апреля 2020

Я новичок в анализе сигналов. Я хочу извлечь MFCC из звука, потому что я прочитал, что MF CC является хорошим параметром для автоматического распознавания речи c. Поэтому я попытался сделать это в RStudio следующим образом:

wl=512
ncep=13
mfcc.peewit <- melfcc(peewit,sr=peewit@samp.rate,wintime = wl/f,hoptime = wl/f,numcep = ncep,
                      nbands = ncep*2,fbtype = "htkmel",dcttype = "t3",htklifter = TRUE,
                      lifterexp = ncep-1,frames_in_rows = FALSE,spec_out = TRUE)

Получилось 13 * 30 фреймов данных, и я запутался в выводе MF CC. Я думал, что MFCC будет 13 фактическими числами, но здесь я получил фрейм данных, MFCC фрейма данных? Или я что-то не так сделал? Или я читал где-то еще, что 13 в «13 * 30» является дискретным представлением 13 коэффициентов, это правильно?

Спасибо за ваш ответ заранее.

1 Ответ

0 голосов
/ 05 мая 2020

Звуковой сигнал является временным рядом. Там будет один набор коэффициентов MF CC на прыжок. Типичное время прыжка для речи может быть около 20-50 мс. Таким образом, измерение 13 - это MF CC, а измерение 30 - это время.

...