Значения амплитуды звука PCM? - PullRequest
29 голосов
/ 05 мая 2011

Я начинаю с аудиозаписи, используя мой смартфон на Android.

Я успешно сохранил записи голоса в файл PCM. Когда я анализирую данные и распечатываю подписанные 16-битные значения, я могу создать график, подобный приведенному ниже. Однако я не понимаю значения амплитуды вдоль оси Y.

  1. Каковы единицы измерения амплитуды? Значения подписаны 16-разрядными, поэтому они должны находиться в диапазоне от -32К до + 32К. Но что представляют эти ценности? Децибел?

  2. Если я использую 8-битные значения, то значения должны находиться в диапазоне от -128 до +128. Как это отобразится на громкость / громкость 16-битных значений? Вы бы просто использовали квантование 16: 1?

  3. Почему существуют отрицательные значения? Я думаю, что полное молчание приведет к значениям 0.

Если кто-то может указать мне на сайт с информацией о том, что записывается, я был бы признателен. Я обнаружил веб-страниц в формате файла PCM, но не в значениях данных.

enter image description here

Ответы [ 5 ]

21 голосов
/ 05 мая 2011

Подумайте о поверхности микрофона. Когда он молчит, поверхность неподвижна в нулевом положении. Когда вы говорите, это вызывает вибрацию воздуха вокруг вашего рта. Вибрации похожи на пружину и имеют движение в обоих направлениях, как назад и вперед, так и вверх и вниз, или внутрь и наружу. Вибрации воздуха вызывают вибрацию поверхности микрофона, а также движение вверх и вниз. Когда он движется вниз, это может быть измерено или взято положительное значение. Когда он поднимается, это может быть выбрано как отрицательное значение. (Или это может быть наоборот.) Когда вы перестаете говорить, поверхность возвращается в нулевое положение.

То, какие числа вы получите из своих данных записи PCM, зависит от усиления системы. Для обычных 16-битных выборок диапазон составляет от -32768 до 32767 для максимально возможного отклонения вибрации, которое может быть записано без искажений, ограничения или переполнения. Обычно усиление устанавливается немного ниже, чтобы максимальные значения не были на грани искажения.

ДОБАВЛЕНО:

8-битный звук PCM часто является типом данных без знака, с диапазоном от 0..255, со значением 128, указывающим «молчание». Таким образом, вы должны добавить / вычесть это смещение, а также масштабировать примерно до 256, чтобы преобразовать 8-битные и 16-битные аудиосигналы PCM.

4 голосов
/ 05 мая 2011

Необработанные числа являются артефактом процесса квантования, используемого для преобразования аналогового аудиосигнала в цифровой.Более разумно думать о звуковом сигнале как о вибрации около 0, простирающейся до +1 и -1 для максимального отклонения сигнала.Помимо этого, вы получаете отсечение, которое искажает гармоники и звучит ужасно.

Однако компьютеры не очень хорошо работают с точки зрения дробей, поэтому для отображения этого диапазона используются дискретные целые числа от 0 до 65536.В большинстве подобных приложений значение +32767 считается максимальным положительным отклонением диафрагмы микрофона или динамика. нет корреляции между точкой выборки и уровнем звукового давления, если только вы не начнете учитывать характеристики цепей записи (или воспроизведения).

(Кстати, 16-битный звукочень стандартный и широко используемый. Это хороший баланс между отношением сигнал / шум и динамическим диапазоном. 8-битный шум, если вы не выполняете нестандартное нестандартное масштабирование.)

3 голосов
/ 26 августа 2011
Why are there negative values? I would think that complete silence

приведет к значениям 0

Диафрагма на микрофоне вибрирует в обоих направлениях и в результате создает положительные и отрицательные напряжения.Значение 0 - молчание, поскольку оно указывает на то, что диафрагма не движется.Посмотрите, как работают микрофоны

Небольшое уточнение: положение диафрагмы записывается.Тишина возникает, когда нет вибрации, когда в положении нет изменения .Итак, вибрация, которую вы видите, - это то, что толкает воздух и создает изменения давления воздуха с течением времени.Воздух больше не выталкивается в верхние и нижние пики любой вибрации, поэтому пики возникают, когда наступает тишина.Самая громкая часть сигнала - это когда положение меняется быстрее всего, что-то посередине пиков.Скорость, с которой диафрагма перемещается от одного пика к другому, определяет величину давления, создаваемого диафрагмой.Когда верхние и нижние пики уменьшаются до нуля (или некоторого другого числа, которое они разделяют), тогда нет никакой вибрации и никакого звука вообще.Кроме того, поскольку диафрагма замедляется, так что между пиками увеличивается промежуток времени, генерируется или записывается меньше звукового давления.

Я рекомендую Руководство по усилению звука Yamaha для получения более подробной информации.чтение.Понимание идеи исчисления также поможет понять звук и вибрацию.

2 голосов
/ 11 апреля 2014

16-битные числа - это значения аналого-цифрового преобразователя с вашего микрофона (вы это знали). Также знайте, что усилитель между вашим микрофоном и аналого-цифровым преобразователем имеет функцию автоматической регулировки усиления (AGC). AGC будет активно изменять усиление сигнала микрофона, чтобы предотвратить попадание слишком большого напряжения на аналого-цифровой преобразователь (обычно <2 В постоянного тока). Кроме того, существует разъединение напряжения постоянного тока, которое устанавливает входной сигнал в середине диапазона аналого-цифрового преобразователя (скажем, 1 В постоянного тока). </p>

Таким образом, когда звук не попадает в микрофон, усилитель AGC посылает сигнал постоянного тока 1,0 В постоянного тока на аналого-цифровой преобразователь. Когда звуковые волны попадают в микрофон, он создает соответствующую волну переменного напряжения. Усилитель AGC принимает волну переменного напряжения, центрирует ее на уровне 1,0 В пост. Тока и отправляет в аналого-цифровой преобразователь. Аналого-цифровая выборка (измеряет напряжение постоянного тока, скажем, 44000 в секунду) и выплевывает значения напряжения +/- 16 бит. Так -65,536 = 0,0 В пост. Тока и +65,536 = 2,0 В пост. Значение +100 = 1,00001529 В пост. Тока и -100 = 0,99999474 В пост. Тока, попадающее на аналого-цифровой преобразователь.

+ Значения выше 1,0 В постоянного тока, -Значения ниже 1,0 В постоянного тока.

Обратите внимание, что большинство аудиосистем используют логарифмическую формулу для логарифмического изгиба звуковой волны, чтобы человеческое ухо могло лучше ее слышать. В цифровых аудиосистемах (с АЦП) цифровая обработка сигналов помещает эту кривую в сигнал. Чипы DSP - это большой бизнес, TI разбогател на их использовании для всех видов приложений, а не только для обработки звука. DSP могут обрабатывать очень сложную математику в потоке данных в реальном времени, который душит процессор iPhone ARM7. Скажем, вы посылаете импульсы 2 МГц на массив из 256 ультразвуковых датчиков / приемников - вы поняли.

2 голосов
/ 11 мая 2011

Здесь много хороших ответов, но они не дают прямого ответа на ваши вопросы в удобном для чтения виде.

Какие именно единицы измерения для амплитудных значений? Значения 16-разрядный со знаком, поэтому они должны варьироваться от От -32К до + 32К. Но что представляют эти ценности? Децибелы?

Значения не имеют единиц измерения. Они просто представляют число, полученное из аналого-цифрового преобразователя. Числа от аналого-цифрового преобразователя являются функцией характеристик микрофона и предварительного усилителя.

Если я использую 8-битные значения, то значения должен находиться в диапазоне от -128 до +128. Как будет ли это сопоставлено с громкость / "громкость" 16-бит ценности? Вы бы просто использовать 16-к-1 квантование карт?

Я не понимаю этого вопроса. Если вы записываете 8-битный звук, ваши значения будут 8-битными. Вы конвертируете 8-битный звук в 16-битный?

Почему существуют отрицательные значения? я мог бы думаю, что полная тишина будет результат в значениях 0

Диафрагма на микрофоне вибрирует в обоих направлениях и в результате создает положительные и отрицательные напряжения. Значение 0 - тишина, поскольку оно указывает на то, что диафрагма не движется. Смотрите как работают микрофоны

Подробнее о том, как звук представлен в цифровом виде, см. здесь .

...