Это, безусловно, зависит от используемого кодека, но мы предполагаем, что PCM - наиболее распространенная вещь, которую вы найдете в файлах WAV.
PCM - это способ кодирования измерения давления в определенный момент времени. Если я измерю уровни давления достаточно быстро и с достаточным разрешением, я могу точно аппроксимировать исходную форму волны.
Из Википедии: https://en.wikipedia.org/wiki/Pulse-code_modulation
Поскольку вы уже анализируете заголовок, вы знаете частоту дискретизации. Это количество выборок в секунду. 44,100 выборок в секунду (или частота выборки 44,1 кГц) - это типичный звук CD. Для видео чаще используется частота дискретизации 48 кГц.
Из заголовка вы также знаете биты на выборку. Это указывает на разрешение каждого взятого образца. 16-битные выборки, естественно, занимают 2 байта для каждой выборки.
В аудиоданных сэмплами являются только числовые значения, одно за другим.
[sample 0][sample 1][sample 2][...]
Количество каналов также указывается в заголовке, который сообщает, сколько дискретных каналов было выбрано. Монофонический звук - это всего лишь 1. Стереозвук будет иметь 2. 5.1-канальный объемный звук будет иметь 6. Сами значения семплов чередуются, сэмплы одного канала за другим, образуя кадр. Если бы у меня была стерео дорожка с левым / правым каналами, она бы выглядела примерно так:
[L][R][L][R][L][R][L][R][...]
Чтобы на самом деле прочитать эти числовые значения, данные обычно пишутся с прямым порядком байтов. Для 16-битных выборок и выше обычно используются целые числа со знаком.