Каждый из этих «сэмплов», помеченных в нижней строке диаграммы, на самом деле представляет собой 2 сэмпла - т.е. каждая обведенная пара из 2 байтов является сэмплом. Диаграмма неверна.
Если это стереофайл, сэмплы будут в парах (один для левого, один для правого) - эта группа обычно называется «рамкой». Примеры каналов чередуются в файле, например, LRLRLRLRLRLRLRLRLR