Я пытался с API для речь в текст в Python.
Хорошо работает для коротких аудиофайлов, но при работе с длинными аудиофайлами возникает тайм-аут.
def process_file(file):
r = sr.Recognizer()
a = ''
with sr.AudioFile(file) as source:
audio = r.record(source)
try:
a = r.recognize_wit(audio,key="---")
except sr.UnknownValueError:
a = "Speech Recognition could not understand audio"
except sr.RequestError as e:
a = "Could not request results from Speech Recognition service; {0}".format(e)
return a