Примечание : код, который вы запускаете, принадлежит ветви Github, которая не является ведущей, поэтому он может не обновляться.
Существует три основных метода преобразования речи в текст для распознавания речи:
Синхронное распознавание : отправка аудиоданных наSpeech-to-Text API, выполняет распознавание этих данных и возвращает результаты после обработки всего аудио.Запросы ограничены аудиоданными продолжительностью не более 1 минуты.
Асинхронное распознавание : отправка аудиоданных в API-интерфейс для преобразования текста в текст и инициирование длительной операции.Используйте асинхронные запросы для аудиоданных любой продолжительностью до 180 минут.
Потоковое распознавание : Выполняет распознавание аудиоданных, предоставляемых в двунаправленном потоке gRPC.Потоковые запросы предназначены для распознавания в реальном времени, например для захвата живого звука с микрофона.Распознавание потоковых данных обеспечивает промежуточные результаты во время захвата звука, что позволяет отображать результат, например, когда пользователь все еще говорит.
Если вы пытаетесь распознать речь в режиме реального времени, лучшим вариантом будет потоковое распознавание.Вот демонстрационный файл , который вы можете попробовать.
Если вы хотите протестировать два других метода, в хранилище для них есть другие демки .
Относительно аудио файлов длительностью более 1 минуты .Синхронное распознавание может обрабатывать только аудиофайлы короче одной минуты.Асинхронное распознавание может обрабатывать аудиофайлы продолжительностью до 180 минут, но вы должны будете предоставить их из GCS.Для потокового распознавания, если вы хотите обрабатывать аудиофайлы длительностью более одной минуты, вам нужно делать это в пакетном режиме.
Google предоставляет некоторые аудиосэмплы для тестирования, они хранятся в корзине тестовых сэмплов.Вы можете отобразить их список с помощью следующей команды:
gsutil ls gs://cloud-samples-tests/speech