Question

В настоящее время я работаю с речью Google Cloud в Text SDK для c #.Я использую пакет nuget - Google.Cloud.Speech.V1P1Beta1.Я пытаюсь извлечь выгоду из речевой диаризации для более длинных видео, но она всегда возвращает 0 в теге динамика для всех слов, независимо от того, сколько динамиков в аудио.ниже мой код

var longOperation = speech.LongRunningRecognize(new RecognitionConfig()
               {
                   Encoding = RecognitionConfig.Types.AudioEncoding.Linear16,
                   DiarizationSpeakerCount = 2,
                   EnableSpeakerDiarization = true,
                   SampleRateHertz = 16000,
                   LanguageCode = "en",
               }, RecognitionAudio.FromFile("testRecording.wav"));

               longOperation = longOperation.PollUntilCompleted();
               var response = longOperation.Result;
               Console.WriteLine("Response received successfully.");

               foreach (var result in response.Results)
               {
                   foreach (var alternative in result.Alternatives)
                   {
                       foreach (var word in alternative.Words)
                       {
                           Console.WriteLine($"{word.Word}: {word.SpeakerTag}");
                       }
                   }
               }

Spear Diarization всегда возвращает ноль с длинными аудио в C #

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spear Diarization всегда возвращает ноль с длинными аудио в C #

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы