Когда я пытаюсь в демоверсии транскрибировать аудио в текст, он настолько точен, что это вывод в демо
Speaker 0: Hello.
Speaker 1: Hi is this Tina.
Speaker 0: Yes it is who is this.
, это мой вывод
Speaker 0: Hello.
Speaker 1: Hi is this Tina.
Speaker 0: Yes it is this this
, это мои настройкив распознавании
private RecognizeOptions getRecognizeOptions(InputStream captureStream) {
return new RecognizeOptions.Builder()
.audio(captureStream)
.contentType(HttpMediaType.AUDIO_MP3)
.model("en-US_NarrowbandModel")
.interimResults(true)
.inactivityTimeout(-1)
.timestamps(true)
.speakerLabels(true)
.smartFormatting(true)
.build();
}
когда я пытаюсь изменить модель на en-US_Broadband, это вывод
Speaker 0:Hello.
Speaker 1:Hi is this Tina. Yes it is who is this
Разница заключается в слове Да, это тот, кто это другой говорящийтаким образом, ожидаемый результат будет следующим:
Speaker 0: Hello.
Speaker 1: Hi is this Tina.
Speaker 0: Yes it is who is this.
, пожалуйста, помогите, пожалуйста, это ошибка, или в моем коде есть ошибка из-за того, что я использую mp3-файл, а не wav-файл