лазурная речь к текстовому высказыванию более 15 секунд - PullRequest
0 голосов
/ 07 июля 2019

Я пытаюсь выяснить, как настроить речь Azure на текстовый SDK API в python для распознавания файлов в течение 15 секунд.

Я попробовал этот код из быстрого запуска Python отсюда:

https://github.com/Azure-Samples/cognitive-services-speech-sdk/blob/master/quickstart/python/quickstart.py

        speech_config = speechsdk.SpeechConfig(subscription=cls.speech_key, region=cls.service_region )
        audio_config = speechsdk.audio.AudioConfig(filename=file_name)
        speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)
        result = speech_recognizer.recognize_once()

        if result.reason == speechsdk.ResultReason.RecognizedSpeech:
            response_str = result.text
            # print("Recognized: {}".format(result.text))
        elif result.reason == speechsdk.ResultReason.NoMatch:
            response_str = result.no_match_details
            print("No speech could be recognized: {}".format(result.no_match_details))
        elif result.reason == speechsdk.ResultReason.Canceled:
            cancellation_details = result.cancellation_details
            response_str = cancellation_details.reason
            print("Speech Recognition canceled: {}".format(cancellation_details.reason))
            if cancellation_details.reason == speechsdk.CancellationReason.Error:
                response_str = cancellation_details.error_details
                print("Error details: {}".format(cancellation_details.error_details))

Все работает, кроме того, что распознаются только первые 15 секунд. Однако эта страница: https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text говорит, что если я использую SDK API (а не REST), можно расшифровать более длинные высказывания.

Мои вопросы:

  1. Как настроить параметры для приема более длинных высказываний
  2. Где я могу найти подробную информацию о настройках API для Python относительно типа вывода. В идеале, если распознаватель возвращает JSON с уверенностью распознавания, без пунктуации.

Любые идеи будут оценены

1 Ответ

0 голосов
/ 18 июля 2019

1.Как настроить параметры для приема более длинных высказываний

На самом деле вы уже нашли доказательства в своем вопросе.Этот документ уже указывает, что вам нужно использовать непрерывную транскрипцию.

enter image description here

Итак, официальный пример Python использует recognize_once(),вам нужно использовать метод start_continuous_recognition(), чтобы заменить его.Пожалуйста, посмотрите эту ссылку :

enter image description here

2. Где я могу найти подробную информацию о настройках API для Python относительноТип выхода.В идеале, если распознаватель возвращает JSON с уверенностью распознавания, без пунктуации.

Вы можете просмотреть структуру json с кодом: speech_recognizer.recognize_once().json()

enter image description here

...