Обратите внимание, что вторая ссылка, которой вы поделились, касающаяся v1beta1
, предназначена для Text-to-Speech API, который является обратным способом к следующим примерам ( Speech-to -Text API).
В этом случае, чтобы использовать RecognitionConfig.AudioEncoding.MP3
, вам нужно будет использовать версию v1p1beta1
. Никаких изменений в команде pip (pip install --upgrade google-cloud-speech
) не требуется, но вам необходимо импортировать правильную версию (speech_v1p1beta1
) в ваш код Python:
# [START speech_transcribe_streaming]
def transcribe_streaming(stream_file):
"""Streams transcription of the given audio file."""
import io
from google.cloud import speech_v1p1beta1
from google.cloud.speech_v1p1beta1 import enums
from google.cloud.speech_v1p1beta1 import types
client = speech_v1p1beta1.SpeechClient()
И теперь вы можете использовать кодировку MP3 :
config = types.RecognitionConfig(
encoding=enums.RecognitionConfig.AudioEncoding.MP3,
sample_rate_hertz=16000,
language_code='en-US')
streaming_config = types.StreamingRecognitionConfig(config=config)
Полный код здесь , но это просто базовый пример с предыдущими изменениями.
Протестировано с примером MP3:
$ python mp3.py sample.mp3
Finished: True
Stability: 0.0
Confidence: 0.9875912666320801
Transcript: I'm sorry Dave I'm afraid I can't do that