В настоящее время я работаю с речью Google Cloud в Text SDK для c #.Я использую пакет nuget - Google.Cloud.Speech.V1P1Beta1.Я пытаюсь извлечь выгоду из речевой диаризации для более длинных видео, но она всегда возвращает 0 в теге динамика для всех слов, независимо от того, сколько динамиков в аудио.ниже мой код
var longOperation = speech.LongRunningRecognize(new RecognitionConfig()
{
Encoding = RecognitionConfig.Types.AudioEncoding.Linear16,
DiarizationSpeakerCount = 2,
EnableSpeakerDiarization = true,
SampleRateHertz = 16000,
LanguageCode = "en",
}, RecognitionAudio.FromFile("testRecording.wav"));
longOperation = longOperation.PollUntilCompleted();
var response = longOperation.Result;
Console.WriteLine("Response received successfully.");
foreach (var result in response.Results)
{
foreach (var alternative in result.Alternatives)
{
foreach (var word in alternative.Words)
{
Console.WriteLine($"{word.Word}: {word.SpeakerTag}");
}
}
}