Маркировка динамиков не соответствует ??даже если это только 2 динамика - PullRequest
0 голосов
/ 25 февраля 2019

Когда я пытаюсь в демоверсии транскрибировать аудио в текст, он настолько точен, что это вывод в демо

Speaker 0:
Hello.
Speaker 1:
Hi is this Tina.
Speaker 0:
Yes it is who is this.

, это мой вывод

Speaker 0:
Hello.
Speaker 1:
Hi is this Tina.
Speaker 0:
Yes it is this this

, это мои настройкив распознавании

private RecognizeOptions getRecognizeOptions(InputStream captureStream) {
return new RecognizeOptions.Builder()
.audio(captureStream)
.contentType(HttpMediaType.AUDIO_MP3)
.model("en-US_NarrowbandModel")
.interimResults(true)
.inactivityTimeout(-1)
.timestamps(true)
.speakerLabels(true)
.smartFormatting(true)
.build();
}

когда я пытаюсь изменить модель на en-US_Broadband, это вывод

Speaker 0:
Hello.
Speaker 1:
Hi is this Tina. Yes it is who is this

Разница заключается в слове Да, это тот, кто это другой говорящийтаким образом, ожидаемый результат будет следующим:

Speaker 0:
Hello.
Speaker 1:
Hi is this Tina.
Speaker 0:
Yes it is who is this.

, пожалуйста, помогите, пожалуйста, это ошибка, или в моем коде есть ошибка из-за того, что я использую mp3-файл, а не wav-файл

1 Ответ

0 голосов
/ 25 февраля 2019

То, что вы обнаруживаете, - это то, что частота дискретизации для аудио значительна при транскрибировании.

Из документации - https://console.bluemix.net/docs/services/speech-to-text/index.html#about

Используйте широкополосный канал для звука, который дискретизируется с минимальной частотой 16 кГц.Используйте узкополосный звук, который дискретизируется с минимальной частотой 8 кГц.

Следовательно, при использовании широкополосной модели звук, который дискретизируется с частотой 8 кГц, не будет хорошо транскрибироваться.

...