Тишина / паузы в аудиофайле приводит к тому, что транскрипция Google Speech to Text заканчивается рано - PullRequest
0 голосов
/ 31 мая 2019

Я использую Google Speech to Text API для преобразования аудиофайлов FLAC с использованием синхронного намерения Recognize в Python3.Однако, когда аудиофайл содержит короткие паузы или паузы, транскрипция заканчивается досрочно, и ответ не захватывает текст после паузы / паузы.

        audiofile = self.convert_mp3_to_flac(audiofile)
        with io.open(audiofile, 'rb') as audio_file:
            content = audio_file.read()
        audio = types.RecognitionAudio(content=content)
        config = types.RecognitionConfig(
            encoding=enums.RecognitionConfig.AudioEncoding.FLAC,
            sample_rate_hertz=24000,
            language_code='en-US',
            enable_automatic_punctuation=True)
        response = self.client.recognize(config, audio)

Объект ответа не содержит транскрипцию для речи после молчания ваудиофайл.

Я ожидаю увидеть всю транскрипцию, так как я делаю запрос со всем аудиофайлом.

1 Ответ

0 голосов
/ 03 июня 2019

Источник звука воспроизводится с помощью микрофона с шумоподавлением? Одно из возможных решений - добавить немного белого шума к аудио.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...