Скрытые марковские модели для распознавания фонем в непрерывной речи - PullRequest
0 голосов
/ 20 февраля 2019

Я знаю, как применить скрытую марковскую модель (HMM), когда у меня есть изолированная фонема.Мне просто нужно создать несколько моделей HMM (по крайней мере с 3 состояниями на модель), по одной для каждой фонемы, вычислить алгоритм пересылки для всех из них и посмотреть, какая из них имеет наибольшую вероятность.

Но теперь яиметь базу данных с непрерывной речью, фонемы, помеченные в каждом кадре (TIMIT).Как я могу обучить HMM, чтобы он мог распознавать фонемы в непрерывной речи?

1 Ответ

0 голосов
/ 21 февраля 2019

Короче говоря: для непрерывного распознавания речи вы подключаете свои модели фонем в большой HMM, используя вспомогательные модели тишины.

Прежде всего, вы можете обучать модели на изолированных фонемах и применять их к непрерывной речи.Например, вы можете разделить ваш обучающий звук в соответствии с существующими метками.

На этапе распознавания применение декодирования Витерби (наиболее вероятная последовательность скрытых состояний) к комбинированной модели эквивалентно распознаванию последовательности фонем.Для более подробной информации вы можете изучить соответствующую главу из книги HTK.

Чтобы обучить HMM на непрерывных данных, вы также делаете аналогичный трюк: объединяете модели отдельных фонем в большую модель для всего основного предложения.Обучающая структура найдет лучшее выравнивание между состояниями модели и аудио.И снова, HTK book предоставляет хороший учебник по этому вопросу.

Распознавание фонем в базе данных TIMIT предоставляет полный обзор методов со множеством ссылок на статьи.Например, эта классическая статья описывает базовый метод для распознавания фонемы, не зависящего от контекста.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...