В прошлом месяце пользователь по имени @jojek сказал мне в комментарии следующий совет:
Могу поспорить, что при наличии достаточного количества данных CNN по энергиям Mel превзойдет MFCC , Тебе следует это попробовать. Имеет больше смысла делать свертку на спектрограмме Мел, а не на декоррелированных коэффициентах.
Да, я пробовал CNN для энергий Mel-filterbank, и он превзошел MFCC, но я до сих пор не знаю причину !
Хотя многие учебные пособия, такие как этот один от Tensorflow, поощряют использование MFCC для таких приложений:
Поскольку человеческое ухо более чувствительно к некоторым частот, чем другие, в распознавании речи традиционно выполняется дальнейшая обработка этого представления, чтобы превратить его в набор Мелкочастотных Цепрных Коэффициентов, или для краткости MFCC.
Кроме того, я хочу знать, если энергии Mel-Filterbank превосходят MFCC только с CNN, или это также верно для LSTM, DNN, ... et c. и я был бы признателен, если бы вы добавили ссылку.
Обновление 1 :
Хотя мой комментарий к ответу @ Nikolay содержит соответствующие подробности, я добавлю его здесь:
Поправьте меня, если я ошибаюсь, поскольку применение DCT к энергиям Mel-filterbank в этом случае эквивалентно IDFT, мне кажется, что когда мы сохраняем 2-13 (включительно) кепстральные коэффициенты и отбрасывание остальных, эквивалентно малому времени подъема, чтобы изолировать компоненты голосового тракта и отбросить исходные компоненты (которые имеют, например, пик F0).
Итак, почему я должен использовать все 40 MFCC, так как все, о чем я забочусь о речи распознавание команд модель компонентов голосового тракта?
Обновление 2
Другая точка зрения ( ссылка ):
Обратите внимание, что сохраняются только 12 из 26 коэффициентов DCT. Это связано с тем, что более высокие коэффициенты DCT представляют быстрые изменения в энергии набора фильтров, и оказывается, что эти быстрые изменения фактически ухудшают производительность ASR, поэтому мы получаем небольшое улучшение, отбрасывая их.
Ссылки:
https://tspace.library.utoronto.ca/bitstream/1807/44123/1/Mohamed_Abdel-rahman_201406_PhD_thesis.pdf