Я создал скрипт на python, который разбивает около часа mp3 на 5 минут, затем преобразует их во флаги и загружает их в хранилище Google, и я выполняю распознавание речи и текста, однако это довольно медленно. Каждый 5-минутный кусок занимает около 2 минут. На создание 53-минутного аудиофайла ушло около 25 минут. Разве это не должно быть намного быстрее? Эта часть кода выполняет функцию «Речь в текст»:
for i in range (0,x+1):
client = speech.SpeechClient.from_service_account_json('credentials2.json')
storage_uri = 'gs://MYBUCKET/sound-%s.flac' % i
print (storage_uri)
with io.open('sound-%s.flac' % i, 'rb') as audio_file:
content = audio_file.read()
audio = types.RecognitionAudio(content=content)
audio = {"uri": storage_uri}
enable_speaker_diarization = True
config = types.RecognitionConfig(
encoding = enums.RecognitionConfig.AudioEncoding.FLAC,
sample_rate_hertz = 48000,
language_code = 'pl-PL',
audio_channel_count=1)
operation = client.long_running_recognize(config,audio)
response = operation.result()
data = open("transkrypcja.txt","a")
for result in response.results:
alternative = result.alternatives[0]
data.write(format(alternative.transcript) + '\n')
data.write('\n\n\n\n\n')
data.close()
print('done')