Question

Проект состоит в том, чтобы использовать SVM для распознавания говорящего с использованием MFCC в качестве набора функций.Обычно коэффициенты MFCC создаются с размером окна в миллисекундах.Однако, поскольку говорящий говорит в течение нескольких секунд, по крайней мере, один может использовать последовательность MFCC в SVM.Вопрос в том, как это можно сделать.Как правило, SVM или любое ядро принимает вектор как вход, но в этом случае мы можем использовать несколько векторов или матрицу для повышения устойчивости.Как SVM может выучить матрицы, а не их векторы?

Nikolay Shmyrev · Answer 1 · 04 апреля 2019

Традиционный подход заключается в использовании специализированной математической модели для анализа факторов в последовательности MFCC и выделения вектора говорящего. Вы отбрасываете изменчивость в MFCC, связанную с реальными словами, вы отбрасываете изменчивость, связанную с интонацией, и оставляете только фактор, связанный с говорящим. Вектор динамика может быть позже проанализирован с помощью SVM. Вы можете проверить детали из i-vector учебник .

Более продвинутые исследования используют нейронную сеть для выделения векторов динамиков, так называемых d-векторов .

Затем вы используете SVM для классификации d-векторов.

Как установить последовательность векторов коэффициентов MFCC для распознавания говорящего?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как установить последовательность векторов коэффициентов MFCC для распознавания говорящего?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы