Чем оцифровка изображения отличается от оцифровки звука (PCM)? - PullRequest
0 голосов
/ 11 февраля 2020

Я пытаюсь понять оцифровку звука и изображений. Насколько я знаю, им обоим необходимо преобразовать аналоговый сигнал в цифровой. Оба должны использовать выборку и квантование.

  • Звук: у нас есть амплитуды на оси y и время на оси x. Что находится на осях x и y во время оцифровки изображения?

  • Что такое стандарт частоты дискретизации для оцифровки изображения? Используется 44 кГц для CD (оцифровка звука). Как именно используется частота дискретизации для изображений?

  • Квантование: Звук - мы используем битовую глубину - что означает уровни амплитуды - Изображение: также используя битовую глубину, но это означает, сколько интенсивностей мы можем распознать? (это правда?)

  • Каковы другие различия между оцифровкой звука и изображения?

Ответы [ 2 ]

1 голос
/ 11 февраля 2020

Получение изображений может быть сведено к этапам пространственной выборки и преобразования / квантования. Пространственная выборка на (x, y) обусловлена ​​размером пикселя. Данные (на третьей оси, z) - это количество электронов, генерируемых фотоэлектричением c на чипе. Эти электроны преобразуются в ADU (аналоговый цифровой блок), а затем в биты. То, что квантуется, это интенсивность света на уровне серых, например, данные на 8 битах дают 2 ^ 8 = 256 уровней серого.

Изображение теряет информацию как из-за пространственной дискретизации (разрешения), так и из-за Квантование интенсивности (уровни серого).

Если вы не говорите о видео, выборка изображений будет осуществляться не в единицах Гц (1 / время), а в 1 / расстоянии. Важно проверить теорему Шеннона-Найквиста, чтобы избежать алиасов. Пространственные частоты, которые вы можете получить, напрямую зависят от оптического дизайна. Размер пикселя должен быть выбран соответственно этому дизайну, чтобы избежать наложения.

EDIT : На приведенном ниже примере я нанес синусоидальную функцию (белые / черные полосы). В левой части сигнал дискретизируется правильно, справа - в 4 раза. Это тот же сигнал, но из-за больших пикселей (меньшая выборка) вы получаете псевдоним ваших данных. Здесь полосы горизонтальны, но у вас также есть тот же эффект для вертикальных.

enter image description here

0 голосов
/ 11 февраля 2020

Единого стандарта для пространственной оси для выборки изображения не существует. Датчик или камера с разрешением 20 мегапикселей будет создавать изображения с совершенно другим пространственным разрешением в пикселях на мм или с углом зрения в пикселях на градус, чем датчик или камера с разрешением 2 мегапикселя. Эти изображения обычно масштабируются до еще одного нестандартного разрешения для просмотра (72 ppi, 300 ppi, «Retina», SD / HDTV, CCIR-601, «4k» и др. c.)

Для звука 48k начинает становиться более распространенным, чем 44.1kps. (на айфонах и т. д. c.)

(«в стандартах хорошо то, что их так много»)

Амплитудное масштабирование в необработанном формате также не имеет единого стандарта. При преобразовании или повторном преобразовании в формат хранения 8-разрядное, 10-разрядное и 12-разрядное квантования являются наиболее распространенными для цветоделения RGB. (JPEG, PNG и др. c. Форматы)

Форматы каналов отличаются для аудио и изображений. X, Y, где X - время, а Y - амплитуда, которая подходит только для монофонического звука. Стерео обычно нужны T, L, R для каналов времени, левого и правого каналов. Изображения часто находятся в X, Y, R, G, B или 5-мерных тензорах, где X, Y - координаты пространственного местоположения, а RGB - интенсивности цвета в этом месте. Интенсивность изображения может быть в некоторой степени связана (в зависимости от гамма-поправок и т. Д. c.) С количеством падающих фотонов на длительность затвора в определенных видимых диапазонах электромагнитных частот на каждый угол падения solid для некоторой линзы.

Фильтр нижних частот для звука и фильтр Байера для изображений обычно используются для того, чтобы приблизить сигнал к ограниченному диапазону, чтобы его можно было дискретизировать с меньшими помехами / помехами.

...