Я пытаюсь использовать sceech_recognition для перевода записанных аудиоданных в текст, и до сих пор я могу успешно перевести записанный звук, используя .wav
. Я использую pyaudio
для записи звука в файл .wav
. Поскольку pyaudio
создает аудиопоток, вместо записи его в файл и последующего использования файла в speech_recognition, я хочу перевести аудиопоток напрямую. Ниже приведена реализация, которая должна принимать аудиопоток, а затем использовать функцию sr.AudioData
и переводить звук.
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 44100
RECORD_SECONDS = 5
WAVE_OUTPUT_FILENAME = get_nonexistant_path("voice.wav")
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=CHUNK)
print("* recording")
frames = []
for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
data = stream.read(CHUNK)
frames.append(data) #appending all the intermediate streams to a list
print("* done recording")
r = sr.Recognizer()
audio_bytes = b''.join(frames) #converting list to a byte object
audio_source = sr.AudioData(audio_bytes, RATE, CHANNELS)
try:
print('Trying to convert')
text = r.recognize_google(audio_data=audio_source, language='en-US', show_all=True)
print(text)
except sr.UnknownValueError:
print("Could not understand")
stream.stop_stream()
stream.close()
p.terminate()
wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b''.join(frames))
wf.close()
Теперь, каждый раз, когда я запускаю этот код, я получаю пустой список в качестве вывода.
* recording
* done recording
Trying to convert
[]
Поскольку я также сохраняю аудиопоток в файл .wav
дляцель отладки, когда я использую тот же файл .wav
, я получаю правильный перевод.
You said "Google speech"
{'alternative': [{'transcript': 'Google speech', 'confidence': 0.98762912}], 'final': True}
Может кто-нибудь, пожалуйста, скажите мне, что здесь происходит не так.