Формат аудио данных отклоняется в Speech Studio - PullRequest
0 голосов
/ 07 ноября 2019

Я загружаю zip-файл аудиоданных в проект Custom Speech в Speech Studio. Однако после загрузки файлы отклоняются.

Я пробовал sox и ffmpeg для преобразования файлов. Вывод sox соответствует требованиям на страницах документации. Я не понимаю, почему файлы отклоняются.

sox.exe" --i audio1.wav

Input File     : 'audio1.wav'
Channels       : 1
Sample Rate    : 16000
Precision      : 16-bit
Duration       : 00:00:02.27 = 36320 samples ~ 170.25 CDDA sectors
File Size      : 72.7k
Bit Rate       : 256k
Sample Encoding: 16-bit Signed Integer PCM

Я архивирую файл и загружаю его. Я считаю, что это соответствует приведенным ниже требованиям.

File format RIFF (WAV)
Sample rate 8,000 Hz or 16,000 Hz
Channels    1 (mono)
Maximum length per audio    2 hours
Sample format   PCM, 16-bit
Archive format  .zip
Maximum archive size    2 GB

В пользовательском интерфейсе отображается сообщение «Не удалось загрузить данные. Проверьте формат данных и повторите попытку загрузки».

Я могу только поверить, чтоесть проблема с сервисом.

1 Ответ

0 голосов
/ 08 ноября 2019

У меня мало опыта работы с sox, но вы используете ffmpeg с: ffmpeg.exe -i -ac 1 -ar 16000

Вы можете найти ffmpeg здесь: https://www.ffmpeg.org/ Это бесплатно.

Надеюсь, это поможет.

...