Google речи к тексту не распознает много аудио - PullRequest
0 голосов
/ 23 января 2020

Я создал скрипт для использования API речи в тексте. Он отлично работает с одним аудио (это m4a, преобразованный в wav), но он часто терпит неудачу (пропускает большую часть текста) с другим подобным аудио (того же происхождения, m4a, преобразованный в wav). Оба aud ios звучат похоже (по крайней мере, на мой слух), но результаты довольно разные. Я установил и метаданные, и конфигурацию, я не знаю, что еще я могу попытаться улучшить результаты.

Соответствующие параметры:

metadata = {
        "original_media_type": enums.RecognitionMetadata.OriginalMediaType.AUDIO,
        "original_mime_type": 'audio/m4a',
}

sample_rate_hertz = 44100
encoding = enums.RecognitionConfig.AudioEncoding.LINEAR16

config = {
      "metadata": metadata,
      "sample_rate_hertz": sample_rate_hertz,
      "audio_channel_count": 2,
      "language_code": language_code,
       "encoding": encoding}

Поскольку один из файлов анализируется с приемлемым В результате я могу сделать вывод, что мой код в порядке, поэтому я думаю об изменении параметра для исправления другого aud ios.

Извините, я не могу поделиться исходным aud ios.

1 Ответ

1 голос
/ 23 января 2020

Вы можете просмотреть свой аудиовход, учитывая, что формат звука не равен аудиокодированию .

Исходя из этого, я предлагаю проверить используемую кодировку или попробовать с одним отличием. Вы также можете проверить облачную речь-текст рекомендации .

Также подтвердите поддерживаемые кодировки звука , похоже, что облачная речь-текст поддерживает WAV-файлы со звуком в кодировке LINEAR16 или MULAW .

...