IBM watson Речь к текстовой интеграции - PullRequest
1 голос
/ 22 мая 2019

Привет, я хочу расшифровать запущенное видео, используя речь в текст библиотеки IBM Watson. Мой код:

new RecognizeOptions.Builder()
                    .audio(audio)
                    .contentType("audio/mp3")
                    .model("en-US_BroadbandModel")
                    .interimResults(true)
                    .inactivityTimeout(2000)
                    //TODO: Uncomment this to enable Speaker Diarization
                    .speakerLabels(true)
                    .build();

Я получаю следующую ошибку: java.lang.RuntimeException: не удалось перекодировать поток данных audio / mpeg -> audio / x-float-array

Пожалуйста, помогите.

1 Ответ

0 голосов
/ 23 мая 2019

Вам нужно будет пропустить видео через что-то вроде ffmpeg, чтобы извлечь звуковую дорожку, и передать звуковую дорожку в службу преобразования речи в текст.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...