Я использую IBM Text-to-Speech API для запуска обнаружения громкоговорителей.Я использовал pydub для объединения нескольких WAV-файлов в один, но не могу передать AudioSegment в IBM.
Мои вопросы:
Могу ли я экспортировать свой файл напрямую в корзину AWS S3, как позже смогу получить оттуда?
Как еще я могу передать AudioSegment?Могу ли я по-разному закодировать его как переменную, поэтому экспортировать его без сохранения в памяти, если это имеет смысл?
Это форматы, которые IBM может читать
- application / octet-stream
- audio / alaw (Обязательно. Укажите частоту дискретизации (частоту) аудио.)
- audio / basic (Обязательно. Используйте только с узкополосными моделями.)
- audio / flac
- audio / g729 (Используйте только с узкополосными моделями.)
- audio / l16 (Обязательно. Укажите частоту дискретизации (частоту) и, при желании, количество каналов(каналы) и порядковый номер (endianness) аудио.)
- аудио / mp3
- аудио / mpeg
- аудио / мулав
- аудио / ogg
- audio / ogg; кодеки = opus
- audio / ogg; кодеки = vorbis
- audio / wav
- audio / webm
- audio/ webm; codecs = opus
- audio / webm; codecs = vorbis
Мне нравится pydub, и до сих пор это был удивительный инструмент для работы.Спасибо за это!