Question

Привет, я хочу расшифровать запущенное видео, используя речь в текст библиотеки IBM Watson. Мой код:

new RecognizeOptions.Builder()
                    .audio(audio)
                    .contentType("audio/mp3")
                    .model("en-US_BroadbandModel")
                    .interimResults(true)
                    .inactivityTimeout(2000)
                    //TODO: Uncomment this to enable Speaker Diarization
                    .speakerLabels(true)
                    .build();

Я получаю следующую ошибку: java.lang.RuntimeException: не удалось перекодировать поток данных audio / mpeg -> audio / x-float-array

Пожалуйста, помогите.

chughts · Answer 1 · 23 мая 2019

Вам нужно будет пропустить видео через что-то вроде ffmpeg, чтобы извлечь звуковую дорожку, и передать звуковую дорожку в службу преобразования речи в текст.

IBM watson Речь к текстовой интеграции

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

IBM watson Речь к текстовой интеграции

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы