Могу ли я использовать word_confidence из речи IBM в текст для изучения произношения? - PullRequest
1 голос
/ 15 марта 2019

Я планирую создать платформу для разработки произношения пользователя на основе конкретных слов, говоря и проверяя уровень доверия, возвращаемый IBM Speech-to-Text API (если он составляет менее 85%, им следует повторить попытку).Могу ли я использовать «word_confidence» в этом сценарии, или они не должны использоваться таким образом?

Ответы [ 2 ]

1 голос
/ 15 марта 2019

Стоит попробовать, но я могу увидеть множество препятствий.

Как вы собираетесь учитывать акценты и диалекты? Южный акцент так же понятен и точен, как и средне-западный.

Если вы выдает только одно слово, речевые аудиофайлы для обработки, то служба STT не сможет использовать контекст, чтобы определить, какое слово на самом деле было сказано, и гомофоны будут особенно хитрыми.

У вас есть два варианта:
1.word_alternatives как часть альтернативного варианта, но вы получите уровни достоверности для всех слов во всех альтернативных ответах.

2.ключное совпадение ключевых слов. Скорее всего, это будет ваш лучший вариант.

0 голосов
/ 18 марта 2019

Это хороший проект.Стоит попробовать.

@ chughts интерпретации верны, и у меня возникли проблемы с акцентами в IBM Speech rec.

Если IBM не является вашим ограничением, вы можете использовать Google SpeechAPI.Это дает вам пул акцентов.И для моих случаев использования всегда была более высокая точность (уровень достоверности).

Но так как ваша цель сама зависит от «уровня достоверности», то, вероятно, она (Google Speech Rec) может прийти к вам как за или против.

...