Объекты Калди, объясненные в терминах непрофессионала - PullRequest
0 голосов
/ 29 января 2019

Я пытаюсь понять внутреннюю работу Калди, но мне трудно понять технические детали документа Калди .

Я хочу сначала получить общее представление о различных объектах, чтобы помочь разобраться в том, что представлено.Мне бы особенно хотелось узнать, что такое файлы .tree, fina.mdl и HCLG.fst, что необходимо для их генерации и как они используются.

Смутно понимаю, что (пожалуйста, поправьте меня, если я ошибаюсь):

  • final.mdl - акустическая модель, которая содержит вероятность перехода с одного телефона на другой.
  • HCLG.fst - это график, который с учетом последовательности телефонов будет генерировать наиболее вероятную последовательность слов на основе лексики, грамматики и языковой модели.
  • decoding-graph - это термин для генерации HCLG.fst
  • , который не совсем уверен, что такое добавление самоконтроля, похоже ли оно на оператор Клини?
  • решеткасодержит альтернативную последовательность слов для высказывания.

Я понимаю, что есть много чего, но любая помощь приветствуется!

1 Ответ

0 голосов
/ 14 апреля 2019

Вам лучше задать один вопрос за раз.Кроме того, лучше сначала прочитать книгу, чтобы понять теорию, а не пытаться понять все сразу.

final.mdl - акустическая модель, которая содержит вероятность перехода с одного телефона на другой.

Основным компонентом модели акустической модели final.mdl являются акустические детекторы, не переходящие вероятности.Это либо набор GMM для телефонов, либо нейронная сеть.Акустическая модель также содержит вероятности перехода из одного состояния hmm в другое, что создает модель HMM для одного телефона.Вероятности перехода между телефонами закодированы в графе HCLG.fst

HCLG.fst - это график, который при заданной последовательности телефонов будет генерировать наиболее вероятную последовательность слов на основе лексики, грамматики и языка.модель.

Не совсем так, HCLG fst - это датчик конечного состояния, который дает вам вероятность последовательности состояний на основе лексики и языковой модели.Телефонные последовательности на самом деле не используются в графе, они учитываются при построении графа.

не совсем уверен, что такое добавление самоконтроля, похоже ли это на оператор Клини?

Речевой HMM имеет самоконтроли для каждого состояния, он позволяет состоянию длиться в течение нескольких входных кадров.Вы можете найти топологию HMM в книге, чтобы увидеть петли.

решетка содержит альтернативную последовательность слов для высказывания.

Это правильно, но также содержитвременные и акустические и языковые модели.

...