Какой формат звука лучше всего подходит для IBM Speech to Text? - PullRequest
1 голос
/ 11 марта 2020

IBM рекомендует использовать звуковой формат Opus для аудио, передаваемого в службу Watson Speech to Text. Идея заключается в том, что Opus разработан специально для речи.

В противном случае говорится, что вы получите более качественную транскрипцию при отправке аудио в формате fla c, чем в формате mp3. Последний имеет очевидное преимущество в своем небольшом размере. В конце концов, существует ограничение в 100 МБ для отправки файлов. Таким образом, вы взвешиваете баланс ваших потребностей. Пока что все это имеет смысл.

Но если посмотреть на преобразования, сделанные в исходном WAV-файле, размер файла Opus сопоставим с размером mp3. одна из двух частот выборки, рекомендованных для использования сервиса), создала wav-файл размером 66.4 МБ. Если преобразовать его в fla c, то wav и opus произвели fla c: 43,6 Мб; mp3: 6,2 МБ; opus: 9,8 Мб.

Так действительно ли opus - лучший выбор для получения наиболее точной транскрипции? И как это может быть, когда он такой маленький по сравнению с fla c?

1 Ответ

1 голос
/ 12 марта 2020

Opus предназначен для эффективного кодирования речи. Детали объясняются в связанной вики-статье, но просто для краткости рассмотрим, что диапазон вокализации человека довольно ограничен, примерно от 80 до 260 Гц. С другой стороны, или слуховой диапазон намного больше, до 20000 Гц. Принимая во внимание, что кодировщики musi c (например, mp3) должны работать примерно в пределах нашего диапазона слышимости, специализированные для голосовых кодеров (например, Opus) могут сосредоточиться на том, что важно для эффективного кодирования человеческого голоса, без интереса, что находится значительно выше нашего диапазона вокализации. Это, я надеюсь, дает некоторую интуицию, почему Opus так эффективен.

Это лучший? Это несколько самоуверенно, но да, я думаю, что это один из лучших вариантов там. Ссылаясь на Википедию, Opus заменяет и Vorbis, и Speex для новых приложений, и несколько слепых тестов на прослушивание оценили его более высоким качеством, чем любой другой стандартный аудиоформат при любом заданном битрейте .

...