Я создал скрипт для использования API речи в тексте. Он отлично работает с одним аудио (это m4a, преобразованный в wav), но он часто терпит неудачу (пропускает большую часть текста) с другим подобным аудио (того же происхождения, m4a, преобразованный в wav). Оба aud ios звучат похоже (по крайней мере, на мой слух), но результаты довольно разные. Я установил и метаданные, и конфигурацию, я не знаю, что еще я могу попытаться улучшить результаты.
Соответствующие параметры:
metadata = {
"original_media_type": enums.RecognitionMetadata.OriginalMediaType.AUDIO,
"original_mime_type": 'audio/m4a',
}
sample_rate_hertz = 44100
encoding = enums.RecognitionConfig.AudioEncoding.LINEAR16
config = {
"metadata": metadata,
"sample_rate_hertz": sample_rate_hertz,
"audio_channel_count": 2,
"language_code": language_code,
"encoding": encoding}
Поскольку один из файлов анализируется с приемлемым В результате я могу сделать вывод, что мой код в порядке, поэтому я думаю об изменении параметра для исправления другого aud ios.
Извините, я не могу поделиться исходным aud ios.