Google Cloud Speech to Text LongRunningRecognize действительно так медленно? - PullRequest
0 голосов
/ 12 ноября 2019

Я создал скрипт на python, который разбивает около часа mp3 на 5 минут, затем преобразует их во флаги и загружает их в хранилище Google, и я выполняю распознавание речи и текста, однако это довольно медленно. Каждый 5-минутный кусок занимает около 2 минут. На создание 53-минутного аудиофайла ушло около 25 минут. Разве это не должно быть намного быстрее? Эта часть кода выполняет функцию «Речь в текст»:

for i in range (0,x+1):
  client = speech.SpeechClient.from_service_account_json('credentials2.json')
  storage_uri = 'gs://MYBUCKET/sound-%s.flac' % i
  print (storage_uri)
  with io.open('sound-%s.flac' % i, 'rb') as audio_file:
    content = audio_file.read()
    audio = types.RecognitionAudio(content=content)
  audio = {"uri": storage_uri}
  enable_speaker_diarization = True
  config = types.RecognitionConfig(
    encoding = enums.RecognitionConfig.AudioEncoding.FLAC,
    sample_rate_hertz = 48000,
    language_code = 'pl-PL',
    audio_channel_count=1)
  operation = client.long_running_recognize(config,audio)
  response = operation.result()
  data = open("transkrypcja.txt","a")
  for result in response.results:
    alternative = result.alternatives[0]
    data.write(format(alternative.transcript) + '\n')
  data.write('\n\n\n\n\n')
  data.close()
  print('done')
...