Я пытаюсь извлечь текст из видео (mp4) файла, сохраненного в AWS S3, используя Python.Я могу заставить его работать, используя аудиофайл, но не с MP4.Можно ли использовать MP4 напрямую или мне нужно извлечь аудио с помощью ffmpeg или чего-то подобного.
Я имею в виду следующую ссылку: Google Video Transcribing
def transcribe_model_selection(speech_file, model):
"""Transcribe the given audio file synchronously with
the selected model."""
from google.cloud import speech
client = speech.SpeechClient()
with open(speech_file, 'rb') as audio_file:
content = audio_file.read()
audio = speech.types.RecognitionAudio(content=content)
config = speech.types.RecognitionConfig(
encoding=speech.enums.RecognitionConfig.AudioEncoding.LINEAR16,
sample_rate_hertz=16000,
language_code='en-US',
model=model)
response = client.recognize(config, audio)
for i, result in enumerate(response.results):
alternative = result.alternatives[0]
print('-' * 20)
print('First alternative of result {}'.format(i))
print(u'Transcript: {}'.format(alternative.transcript))