Question

Я новичок в анализе сигналов. Я хочу извлечь MFCC из звука, потому что я прочитал, что MF CC является хорошим параметром для автоматического распознавания речи c. Поэтому я попытался сделать это в RStudio следующим образом:

wl=512
ncep=13
mfcc.peewit <- melfcc(peewit,sr=peewit@samp.rate,wintime = wl/f,hoptime = wl/f,numcep = ncep,
                      nbands = ncep*2,fbtype = "htkmel",dcttype = "t3",htklifter = TRUE,
                      lifterexp = ncep-1,frames_in_rows = FALSE,spec_out = TRUE)

Получилось 13 * 30 фреймов данных, и я запутался в выводе MF CC. Я думал, что MFCC будет 13 фактическими числами, но здесь я получил фрейм данных, MFCC фрейма данных? Или я что-то не так сделал? Или я читал где-то еще, что 13 в «13 * 30» является дискретным представлением 13 коэффициентов, это правильно?

Спасибо за ваш ответ заранее.

jonnor · Answer 1 · 05 мая 2020

Звуковой сигнал является временным рядом. Там будет один набор коэффициентов MF CC на прыжок. Типичное время прыжка для речи может быть около 20-50 мс. Таким образом, измерение 13 - это MF CC, а измерение 30 - это время.

Понимание результатов MFCC

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Понимание результатов MFCC

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы