Короче говоря: для непрерывного распознавания речи вы подключаете свои модели фонем в большой HMM, используя вспомогательные модели тишины.
Прежде всего, вы можете обучать модели на изолированных фонемах и применять их к непрерывной речи.Например, вы можете разделить ваш обучающий звук в соответствии с существующими метками.
На этапе распознавания применение декодирования Витерби (наиболее вероятная последовательность скрытых состояний) к комбинированной модели эквивалентно распознаванию последовательности фонем.Для более подробной информации вы можете изучить соответствующую главу из книги HTK.
Чтобы обучить HMM на непрерывных данных, вы также делаете аналогичный трюк: объединяете модели отдельных фонем в большую модель для всего основного предложения.Обучающая структура найдет лучшее выравнивание между состояниями модели и аудио.И снова, HTK book предоставляет хороший учебник по этому вопросу.
Распознавание фонем в базе данных TIMIT предоставляет полный обзор методов со множеством ссылок на статьи.Например, эта классическая статья описывает базовый метод для распознавания фонемы, не зависящего от контекста.