Question

Я бы хотел иметь возможность извлекать из человека потоки телефонного аудио. Аудио телефона направляется на мой сервер, который затем создает запрос на распознавание потоковой передачи. Как я могу сказать, когда слово существует как часть полного высказывания или является частью высказывания, которое в настоящее время транскрибируется? Должен ли я сравнить метки времени между словами? Будет ли API продолжать возвращать промежуточные результаты, даже если в течение определенного времени не будет речи в потоковом аудио на телефоне? Как я могу превысить 1-минутный лимит потокового аудио?

ch_mike · Answer 1 · 10 сентября 2018

О ваших первых 3 вопросах:

Вам не нужно сравнивать временные метки между словами, вы можете определить, является ли слово частью полного высказывания (конечного результата), посмотрев на is_final flag в Результат распознавания потоковой передачи . Если флаг установлен в true, ответ соответствует завершенной транскрипции, в противном случае это промежуточный результат. Подробнее об этом здесь .

Как только вы получите окончательные результаты, никакие промежуточные результаты не должны генерироваться до тех пор, пока не появятся новые высказывания.

Что касается вашего последнего вопроса, вы не можете превысить 1-минутный лимит, вам нужно вместо этого отправить несколько запросов .

Передача аудио через Google Speech API превышает 1 минуту

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Передача аудио через Google Speech API превышает 1 минуту

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы