Google Speech-to-Text API: отсутствует или плохая достоверность для распознавания речи - PullRequest
1 голос
/ 11 марта 2019

Я использую Google API для распознавания речи.

Я использую 2,5-секундные аудиосэмплы. Ниже вы можете увидеть пример выходных данных, где достоверность не указана:

{u'alternative ': [{u'ranscript': u'Если Кэрол придет завтра, у вас будет '}, {u'ranscript': u'Если Кэрролл придет завтра никогда '}, {u'ranscript': u 'если Кэрролл придет завтра, у него есть'}, {u't transcript ': u'Если Кэрол придет завтра, у него будет'}, {u'ranscript ': u'Если завтра наступит время ухода, у вас есть'}, {u'transcript ': а если завтра придет Кэрролл, то '}, {u't transcript': если завтра придет девушка, у вас будет '}, {u'скрипт': завтра у вас придет Кэрролл '}, {u't transcript': Если завтра придет звонок, у вас будет '}, {u'скрипт': у Кэрол завтра придет время с '}, {u'скрипт': если у Кевина завтра придет с '}, {стенограмма': и если завтра придет Кэрролл, то '}, {u'ranscript': если завтра придет Корея, у вас будет '}, {u'ranscript': u'Если завтра придет Кэрролл '}, {u'ranscript': и если завтра придет крик, сделайте '}], u'final': True}

Исходный образец частично вырезан в конце, но определенно говорит: "если Кэрол придет завтра, есть ..."

В 95% случаев я получаю значение достоверности только для самого первого предложения, все альтернативы опущены:

{u'alternative ': [{u'confidence': 0.91297865, u't transcript ': до этого времени, возможно, что-то лучше могло'}, {u'ranscript ': до этого времени, возможно, пришло что-то лучшее '}, {u'ranscript': к тому времени, возможно, что-то лучше, Ким '}, {u'ranscript': но, в то время, может быть, что-то лучше может '}, {u'ranscript': к тому времени возможно, что-то получится лучше '}], u'final': True}

Здесь предложение звучит так: «К тому времени, возможно, что-то лучше может быть». Итак, первая транскрипция в значительной степени точна.

На всякий случай, вот как я запускаю оценку в Python:

import speech_recognition as sr
from scipy.io import wavfile

r = sr.Recognizer()
with sr.WavFile(target0_path) as source:
    audio = r.record(source)
list = r.recognize_google(audio, None, "en-US", True)

У вас есть идея или совет? Какие-либо конкретные настройки, которые я мог бы использовать, чтобы избежать проблемы?

...