Как правильно использовать функцию AudioData в SpeechRecognition? - PullRequest
1 голос
/ 30 октября 2019

Я пытаюсь использовать sceech_recognition для перевода записанных аудиоданных в текст, и до сих пор я могу успешно перевести записанный звук, используя .wav. Я использую pyaudio для записи звука в файл .wav. Поскольку pyaudio создает аудиопоток, вместо записи его в файл и последующего использования файла в speech_recognition, я хочу перевести аудиопоток напрямую. Ниже приведена реализация, которая должна принимать аудиопоток, а затем использовать функцию sr.AudioData и переводить звук.

FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 44100
RECORD_SECONDS = 5
WAVE_OUTPUT_FILENAME = get_nonexistant_path("voice.wav")

p = pyaudio.PyAudio()

stream = p.open(format=FORMAT,
                channels=CHANNELS,
                rate=RATE,
                input=True,
                frames_per_buffer=CHUNK)

print("* recording")

frames = []

for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    data = stream.read(CHUNK)
    frames.append(data) #appending all the intermediate streams to a list

print("* done recording")

r = sr.Recognizer()

audio_bytes = b''.join(frames) #converting list to a byte object 
audio_source = sr.AudioData(audio_bytes, RATE, CHANNELS)

try:
    print('Trying to convert')
    text = r.recognize_google(audio_data=audio_source, language='en-US', show_all=True)
    print(text)

except sr.UnknownValueError:
    print("Could not understand")

stream.stop_stream()
stream.close()
p.terminate()

wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b''.join(frames))
wf.close()

Теперь, каждый раз, когда я запускаю этот код, я получаю пустой список в качестве вывода.

* recording
* done recording
Trying to convert
[]

Поскольку я также сохраняю аудиопоток в файл .wav дляцель отладки, когда я использую тот же файл .wav, я получаю правильный перевод.

You said "Google speech"
{'alternative': [{'transcript': 'Google speech', 'confidence': 0.98762912}], 'final': True}

Может кто-нибудь, пожалуйста, скажите мне, что здесь происходит не так.

...