Я пытаюсь выучить речь в текст для проекта и наткнулся на этот замечательный ресурс:
https://realpython.com/python-speech-recognition/
Пример кода для получения звука из статического файла приведен внапример, как:
import speech_recognition as sr
print(sr.__version__)
r = sr.Recognizer()
harvard = sr.AudioFile('path_to_audio_file.wav')
with harvard as source:
audio = r.record(source)
out = r.recognize_google(audio)
print(out)
Это приводит к получению:
'несвежий запах старого пива задерживается, требуется тепло, чтобы вызвать запах, холодное падение восстанавливает здоровье и изюминкусолёный маринованный вкус с ветчиной тако аль-Пасторе - моя любимая пища - это горячая сдобная булочка '
Однако, когда я пытаюсь запустить тот же код, я получаю вывод:
3.8.1
продавец старых пьющих пиво, он берет привет, чтобы вывести заказ, который я называю dip restore selfinvest the соль, позвоните, чтобы найти его, потому что мой любимый только для еды - Бихаркрестик булочка
Что я делаю? Я не могу понять это.
PS В обоих случаях использовался один и тот же файл .wav.