Возвращает ли Kaldi какой-либо параметр достоверности распознавания, подобный Google Speech-To-Text API? - PullRequest
2 голосов
/ 15 октября 2019

Я имею дело с задачей распознавания речи. До сих пор я использовал Google Cloud Speech Recognition API (в Python) с хорошими результатами. API возвращает значение достоверности вместе с каждым фрагментом транскрибированного текста. Доверие - это число от 0 до 1, как указано в документации, но я не нашел более глубокого объяснения того, как API Google получает это число, поэтому я предполагаю, что оно каким-то образом исходит от нейронной сети, которая выполняет распознавание.

Следующим шагом, который я хочу сделать, является создание моей собственной (автономной) программы автоматического распознавания речи, и я обнаружил, что pyKaldi должно подойти для этой задачи. Я еще не начал программировать его, но хочу знать заранее (для исследовательских целей) - может ли Kaldi вернуть какое-то подобное значение доверия, как это делает Google Speech-to-Text API? И что на самом деле это "доверие" , и как оно вычисляется?

1 Ответ

1 голос
/ 23 октября 2019

Да, pyKaldi поддерживает значения достоверности (показатель достоверности слова), рассчитанные с минимальным байесовским риском (MBR). Вы найдете всю необходимую информацию в документации. Вот ссылка на описание модуля:

https://pykaldi.github.io/api/kaldi.lat.html?highlight=mbr#module-kaldi.lat.sausages

Как видно из названия, это значение доверия, но оно не выражает, насколько "вероятно", чторезультирующий текстовый вывод для слова, полученного (или заданного в вероятностной настройке) из последовательности аудиоблоков, является правильным. На мой взгляд, выразительность или значимость немного размыты и зависят от качества модели и данных тренировки (шум, реверберация и т. Д.). Имеет смысл сравнивать альтернативы, говоря, что тот, у которого более высокое значение, с большей вероятностью будет правильным. Это, в свою очередь, ставит проблему о том, какое расстояние назвать существенной разницей. Одно значение достоверности ничего вам не говорит, и вы не можете сравнивать две разные модели распознавателя только на основе их значений достоверности. Microsoft называет это «Вместо этого, доверительные оценки предоставляют механизм для сравнения относительной точности нескольких вариантов распознавания для данного ввода. Это облегчает получение наиболее точного результата распознавания».

...