Почему энергии Mel-filterbank превосходят MFCC по распознаванию речевых команд с использованием CNN? - PullRequest
5 голосов
/ 27 февраля 2020

В прошлом месяце пользователь по имени @jojek сказал мне в комментарии следующий совет:

Могу поспорить, что при наличии достаточного количества данных CNN по энергиям Mel превзойдет MFCC , Тебе следует это попробовать. Имеет больше смысла делать свертку на спектрограмме Мел, а не на декоррелированных коэффициентах.

Да, я пробовал CNN для энергий Mel-filterbank, и он превзошел MFCC, но я до сих пор не знаю причину !

Хотя многие учебные пособия, такие как этот один от Tensorflow, поощряют использование MFCC для таких приложений:

Поскольку человеческое ухо более чувствительно к некоторым частот, чем другие, в распознавании речи традиционно выполняется дальнейшая обработка этого представления, чтобы превратить его в набор Мелкочастотных Цепрных Коэффициентов, или для краткости MFCC.

Кроме того, я хочу знать, если энергии Mel-Filterbank превосходят MFCC только с CNN, или это также верно для LSTM, DNN, ... et c. и я был бы признателен, если бы вы добавили ссылку.


Обновление 1 :

Хотя мой комментарий к ответу @ Nikolay содержит соответствующие подробности, я добавлю его здесь:

Поправьте меня, если я ошибаюсь, поскольку применение DCT к энергиям Mel-filterbank в этом случае эквивалентно IDFT, мне кажется, что когда мы сохраняем 2-13 (включительно) кепстральные коэффициенты и отбрасывание остальных, эквивалентно малому времени подъема, чтобы изолировать компоненты голосового тракта и отбросить исходные компоненты (которые имеют, например, пик F0).

Итак, почему я должен использовать все 40 MFCC, так как все, о чем я забочусь о речи распознавание команд модель компонентов голосового тракта?

Обновление 2

Другая точка зрения ( ссылка ):

Обратите внимание, что сохраняются только 12 из 26 коэффициентов DCT. Это связано с тем, что более высокие коэффициенты DCT представляют быстрые изменения в энергии набора фильтров, и оказывается, что эти быстрые изменения фактически ухудшают производительность ASR, поэтому мы получаем небольшое улучшение, отбрасывая их.

Ссылки:

https://tspace.library.utoronto.ca/bitstream/1807/44123/1/Mohamed_Abdel-rahman_201406_PhD_thesis.pdf

1 Ответ

3 голосов
/ 28 февраля 2020

Дело в том, что MF CC рассчитывается по энергиям мела с простым умножением матрицы и уменьшением размерности. Это умножение матриц не влияет ни на что, поскольку любая другая нейронная сеть впоследствии применяет много других операций.

Что важно, так это уменьшение размерности, где вместо 40 энергий мель вы берете 13 коэффициентов мель, опуская остальные. Это снижает точность с CNN, DNN или чем-то еще.

Однако, если вы не сбросите и все еще используете 40 MFCC, вы можете получить ту же точность, что и для энергии плавления, или даже более высокую точность.

Так что не имеет значения MEL или MF CC, важно, сколько коэффициентов вы оставите в своих функциях.

...