При расчете MFCC для отдельных кадров аудиосигнала, имеет ли смысл обобщать матрицу MFCC x количество временных кадров на один набор MFCC для сигнала? Если да, то будет ли это через среднее значение?
Под разумным я имею в виду, будет ли степень достоверности искажения / уменьшения информации, охватываемой матрицей MFCC путем усреднения, по-прежнему давать надежный ответ?