Распознавание потокового режима Cloud Speech API более 1 минуты - PullRequest
0 голосов
/ 29 ноября 2018

Я пытаюсь выполнить распознавание речи в режиме реального времени в течение более 1 минуты с использованием Cloud Speech API, но ограничение синхронного распознавания речи составляет всего 1 минуту на запрос.Я попытался запустить https://github.com/GoogleCloudPlatform/python-docs-samples/blob/speech-continuous/speech/cloud-client/transcribe_streaming_indefinite.py, как предложено в ответе на этот вопрос Multiple StreamingRecognizeRequest , но я получил эту ошибку:

File "transcribe_streaming_indefinite.py", line 30, in __init__ 
self._bytes_per_sample = 2 * self._num_channels AttributeError: 
'ResumableMicrophoneStream' object has no attribute '_num_channels''

У кого-нибудь есть идеи, как это сделать?Заранее спасибо.

1 Ответ

0 голосов
/ 18 декабря 2018

Примечание : код, который вы запускаете, принадлежит ветви Github, которая не является ведущей, поэтому он может не обновляться.


Существует три основных метода преобразования речи в текст для распознавания речи:

Синхронное распознавание : отправка аудиоданных наSpeech-to-Text API, выполняет распознавание этих данных и возвращает результаты после обработки всего аудио.Запросы ограничены аудиоданными продолжительностью не более 1 минуты.

Асинхронное распознавание : отправка аудиоданных в API-интерфейс для преобразования текста в текст и инициирование длительной операции.Используйте асинхронные запросы для аудиоданных любой продолжительностью до 180 минут.

Потоковое распознавание : Выполняет распознавание аудиоданных, предоставляемых в двунаправленном потоке gRPC.Потоковые запросы предназначены для распознавания в реальном времени, например для захвата живого звука с микрофона.Распознавание потоковых данных обеспечивает промежуточные результаты во время захвата звука, что позволяет отображать результат, например, когда пользователь все еще говорит.

Если вы пытаетесь распознать речь в режиме реального времени, лучшим вариантом будет потоковое распознавание.Вот демонстрационный файл , который вы можете попробовать.

Если вы хотите протестировать два других метода, в хранилище для них есть другие демки .

Относительно аудио файлов длительностью более 1 минуты .Синхронное распознавание может обрабатывать только аудиофайлы короче одной минуты.Асинхронное распознавание может обрабатывать аудиофайлы продолжительностью до 180 минут, но вы должны будете предоставить их из GCS.Для потокового распознавания, если вы хотите обрабатывать аудиофайлы длительностью более одной минуты, вам нужно делать это в пакетном режиме.

Google предоставляет некоторые аудиосэмплы для тестирования, они хранятся в корзине тестовых сэмплов.Вы можете отобразить их список с помощью следующей команды:

gsutil ls gs://cloud-samples-tests/speech
...