Это из-за природы MF CC. Помните, что эти коэффициенты рассчитываются в диапазоне частот по шкале плавления, которую вы вводите через lower_edge_hertz
и upper_edge_hertz
в связанном коде.
Что это означает на практике:
«Вычислить 13 коэффициентов напрямую»: взять диапазон частот [80.0, 7600.0]
и разделить его на 13 бинов. В конце концов, вы получите 13 коэффициентов, которые отражают амплитуды соответствующего спектра (см. MF CC алгоритм )
«Сначала все 80, затем первые 13» : возьмите частотный диапазон [80.0, 7600.0]
и разделите его на 80 бинов. Теперь возьмем только первые 13 коэффициентов. На практике это означает, что вы смотрите на очень узкий и мелкозернистый спектр, в данном случае примерно в диапазоне частот человеческой речи [80, 400]
Гц (грубо говоря, за пределами расчетов огибающей). Имеет смысл, если вы увлекаетесь распознаванием человеческой речи, поскольку вы можете сосредоточиться на более тонких вариациях, игнорируя при этом спектр более высоких частот (это менее интересно с точки зрения нашей аудиосистемы).