Что означают показатели достоверности в распознавании речи? - PullRequest
0 голосов
/ 20 апреля 2020

Многие службы речевых сообщений (например, Google) предоставляют оценку достоверности. По крайней мере, для Google это между 0 и 1, но это явно не вероятность того, что конкретная транскрипция верна, поскольку доверительные отношения для альтернативных транскрипций составляют более 1. Кроме того, результат с более высокой достоверностью иногда оценивается ниже.

Итак, что это? Есть ли общепризнанное значение «показателя доверия» в сообществе распознавания речи? Я видел ссылки на минимальный байесовский риск , но даже если это то, что они делают, это не очень отвечает на вопрос, поскольку это зависит от выбора вспомогательной функции потерь.

1 Ответ

0 голосов
/ 21 апреля 2020

, но это явно не вероятность того, что конкретная транскрипция является правильной, поскольку доверительные отношения для альтернативных транскрипций составляют в целом более 1

Статистические алгоритмы никогда не дают вам значение вероятности, они дать вам оценки. В некоторых случаях оценка может быть неточной, тем более что в среднем они приближаются к идеалу. Доверие должно быть откалибровано. Вы можете проверить некоторые теории в

Калибровка мер доверия при распознавании речи Донг Ю, старший член IEEE, Jinyu Li, член IEEE, Ли Дэн, член, IE https://www.microsoft.com/en-us/research/wp-content/uploads/2011/01/ConfidenceCalibration.pdf

Есть ли общепризнанное значение «показателя доверия» в сообществе распознавания речи?

Не совсем, все используют собственные алгоритмы. От простого байесовского риска (который не является наилучшей оценкой) до гораздо более продвинутых методов. На самом деле невозможно узнать, что делает Google. В Kaldi также есть реализация хорошего алгоритма: https://github.com/kaldi-asr/kaldi/blob/master/egs/ami/s5/local/confidence_calibration.sh

...