Традиционный подход заключается в использовании специализированной математической модели для анализа факторов в последовательности MFCC и выделения вектора говорящего. Вы отбрасываете изменчивость в MFCC, связанную с реальными словами, вы отбрасываете изменчивость, связанную с интонацией, и оставляете только фактор, связанный с говорящим. Вектор динамика может быть позже проанализирован с помощью SVM. Вы можете проверить детали из i-vector учебник .
Более продвинутые исследования используют нейронную сеть для выделения векторов динамиков, так называемых d-векторов .
Затем вы используете SVM для классификации d-векторов.