Функции распознавания говорящего, которые можно добавить к функциям / функциям mf cc, которые я могу сделать для улучшения нейронной сети распознавания говорящего. - PullRequest
1 голос
/ 20 марта 2020

Я пытаюсь создать систему распознавания речи для машинного обучения.

В настоящее время я использую следующую схему:

  1. , беру набор данных из моих аудиофайлов и вычисляя для каждых 0,15 секунд аудиофайла 13 mel freaquency coeffs
  2. каждые 13 коэффи- циентов, которые я вводю в нейронную сеть, основанную на 3 блоках [conv, pool, norm]
  3. для тестовых файлов, я использую большинство по всем выходным данным для каждого вектора 13 коэффи- циентов

Я обычно получаю около 85% распознавания для 3 динамиков, что не удивительно, и поэтому я решил, что хочу добавить некоторые функции, но я не знаю, что добавить ...

Кто-то У меня есть рекомендации по поводу того, какую функцию я должен добавить / что мне нужно сделать, чтобы увеличить мой приоритет?

Я попытался использовать модуль с таким названием - "pitch", который дает мне высоту wav-файла, но это дал мне очень рандоми c значений (например, для того же динамика он дал мне 360, 80, 440 за 3 первых ауд ios)

Большое спасибо за любую помощь

1 Ответ

0 голосов
/ 21 марта 2020

Вы должны обрабатывать более длинные фрагменты одновременно, за 0,15 секунды практически невозможно определить личность говорящего.

Общее правило: чем длиннее звук, который вы обрабатываете, тем точнее будет распознавание. Что-то вроде 1-3 секунд - это хорошо, и вам нужно ввести их в нейронную сеть в целом.

Вы можете поискать x-vector на github, есть много реализаций, вы можете найти их, например, в kaldi .

...