Использование MFCC для распознавания голоса - PullRequest
0 голосов
/ 04 декабря 2018

В настоящее время я использую преобразование Фурье в сочетании с Керасом для распознавания голоса (идентификации оратора).Я слышал, что MFCC - лучший вариант для распознавания голоса, но я не уверен, как его использовать.

Я использую librosa в python (3) для извлечения 20 функций MFCC.У меня вопрос: какие функции MFCC я должен использовать для идентификации докладчиков?

В дополнение к этому я не уверен в том, как реализовать эти функции.Я хотел бы получить необходимые функции и сделать один длинный векторный ввод для нейронной сети.Тем не менее, также возможно отображать цвета, поэтому может быть также возможно распознавание изображения или это больше нацелено на речь, а не на распознавание говорящего?Я не очень разбираюсь в распознавании изображений и не знаю, с чего начать.

Заранее спасибо !!

Ответы [ 3 ]

0 голосов
/ 12 декабря 2018

В дополнение к этому я не уверен, как реализовать эти функции.Что я хотел бы сделать, это получить необходимые функции и сделать один длинный векторный вход для нейронной сети.

Для каждого образца у вас должна быть двумерная матрица MFCC, такая как N x TX no_mfccs (вваш случай no_mfccs = 20);чтобы превратить его в один вектор, различные исследователи берут статистику, такую ​​как среднее, переменная, IQR и т. д., чтобы уменьшить размерность объекта.Некоторые также моделируют его с использованием многомерной регрессии, а некоторые подгоняют его к модели гауссовой смеси.Это зависит от следующего этапа.В вашем случае вы можете использовать статистику для преобразования в один вектор

ИЛИ Как сказал Parthosarathi, вы можете использовать LSTM для сохранения последовательной информации во временных рамках.

Однако этотакже возможно отображение цветов, поэтому может быть также возможно распознавание изображения или это больше нацелено на речь, а не на распознавание говорящего?

Я не буду рекомендовать использовать спектрограмму (изображение) в качествесоединить вектор с нейронной сетью, поскольку визуальные изображения и спектрограммы не накапливают визуальные объекты и информацию о звуковых событиях одинаково.

при передаче изображения в нейронную сеть предполагается, что свойства (значения пикселей) изображения имеют одинаковое значение независимо от их местоположения.Но в случае спектрограммы расположение объекта имеет большое значение.

Например, перемещение частот мужского голоса вверх может изменить его значение от мужчины к ребенку.Следовательно, пространственная инвариантность, которую обеспечивает 2D CNN, может не работать так же хорошо для этой формы данных.Чтобы узнать больше об этом, обратитесь: Что не так с CNN и спектрограммами для обработки звука?

0 голосов
/ 17 декабря 2018

Вы можете использовать MFCC с плотными слоями / многослойным персептроном, но, вероятно, сверточная нейронная сеть на mel-спектрограмме будет работать лучше, при условии, что у вас достаточно тренировочных данных.

0 голосов
/ 04 декабря 2018

У меня вопрос: какие функции MFCC я должен использовать для идентификации говорящего?

Я скажу, что используют все из них.Технически функции MFCC выводятся из разных банков фильтров.Априори трудно сказать, какой из них будет полезен.

В дополнение к этому я не уверен в том, как реализовать эти функции.Я хотел бы получить необходимые функции и сделать один длинный векторный ввод для нейронной сети.

На самом деле, когда вы извлекаете MFCC для N выборок, вы получаете массив, подобный N x T x 20 T.количество кадров в аудиосигнале после обработки для MFCC.Я предлагаю использовать классификацию последовательностей с LSTM .Это даст лучший результат.

...