Как обучить HMM с набором аудиосоединений для распознавания речи? - PullRequest
0 голосов
/ 04 июля 2018

Я читал некоторые журналы и статьи о HMM и MFCC, но я все еще не понимал, как это работает шаг за шагом с моим набором данных (аудио набора данных предложений).

Мой набор данных Пример (аудио форма):

  • привет, доброе утро
  • удачи тебе на экзамене
  • и т.д. около 343 аудиоданных и 20 динамиков (6800 аудиоданных)

Все, что я знаю:

  1. Мои наборы данных предложений используются для получения вероятности перехода
  2. Хмм утверждает, что фонемы
  3. 39 Функции MFCC используются для обучения моделей HMM

Мои вопросы:

  1. Мне нужно разрезать мои предложения на слова или просто использовать предложения для поезда Модели HMM?
  2. Нужен ли набор данных фонем для поезда? если да, нужно ли тренировать его, используя HMM? если нет, то как моя программа распознает фонемы для ввода предсказания HMM?
  3. Какие шаги я должен сделать в первую очередь?

Примечание: я работаю с python, и я использовал hmmlearn и python_speech_features в качестве моей библиотеки.

1 Ответ

0 голосов
/ 04 июля 2018
  1. Нужно ли мне разрезать свои предложения на слова или просто использовать предложения для моделей поездов HMM?

Теоретически вам просто нужны предложения и фонемы. Но наличие отдельных слов может быть полезно для вашей модели (это увеличивает размер ваших тренировочных данных)

  1. Нужен ли набор данных фонем для поезда? если да, нужно ли тренировать его, используя HMM? если нет, то как моя программа распознает фонемы для ввода предсказания HMM?

Вам нужны фонемы, иначе вашей модели будет слишком сложно найти правильную сегментацию фонем, если у нее нет примера изолированных фонем. Сначала вы должны обучить свои состояния HMM на изолированных фонемах, а затем добавить остальные данные. Если у вас достаточно данных, ваша модель, возможно, сможет учиться без отдельных примеров фонем, но я бы не стал этого делать.

  1. Какие шаги я должен сделать в первую очередь?

Создайте свои примеры фонем и используйте их для обучения простой модели HMM, в которой вы не моделируете переход между фонемами. Как только в ваших скрытых состояниях появится некоторая информация о фонемах, вы можете продолжить обучение по отдельным словам и предложениям.

...