Понятия, лежащие в основе этих видов преобразований, легче увидеть, если сначала взглянуть на одномерный случай. Изображение здесь показывает прямоугольную волну вместе с несколькими первыми членами бесконечного ряда. Глядя на это, обратите внимание, что если функции для терминов сложены вместе, они начинают приближаться к форме прямоугольной волны. Чем больше терминов вы сложите, тем лучше приближение. Но чтобы получить приближение к точному сигналу, нужно сложить бесконечное число слагаемых. Причина этого заключается в том, что прямоугольная волна является прерывистой. Если вы рассматриваете прямоугольную волну как функцию времени, она изменяется от -1 до 1 за нулевое время. Для представления такой вещи необходим бесконечный ряд. Взгляните еще раз на сюжет серии терминов. Первый красный, второй желтый. Последовательные термины имеют больше переходов вверх и вниз. Они из возрастающей частоты каждого термина. Придерживаясь прямоугольной волны как функции времени, и каждый ряд называют функцию частоты, есть два эквивалентных представления: функция времени и функция частоты (1 / время).
В реальном мире нет прямоугольных волн. Ничего не происходит в нулевое время. Звуковые сигналы, например, занимают диапазон от 20 Гц до 20 кГц, где Гц равен 1 / время. Такие вещи можно представить конечными сериями ».
Для изображений математика одинакова, но две вещи разные. Во-первых, это двухмерное. Во-вторых, понятие времени не имеет смысла. В одномерном смысле прямоугольная волна - это просто функция, которая дает некоторое числовое значение для аргумента, который мы назвали временем. (Статическое) изображение - это функция, которая выдает числовое значение для каждой пары строк и столбцов. Другими словами, изображение является функцией 2D-пространства, представляющего собой прямоугольную область. Такая функция может быть представлена в терминах ее пространственной частоты. Чтобы понять, что такое пространственная частота, рассмотрим 8-битное изображение уровня серого и пару смежных пикселей. Самое резкое изменение, которое может произойти на изображении, происходит от 0 (скажем, черный) до 255 (скажем, белый) на расстоянии 1 пиксель. Это напрямую соответствует наивысшему частотному (последнему) члену представления серии.
Двумерное преобразование Фурье (или косинуса) изображения приводит к массиву значений того же размера, что и изображение, представляя ту же информацию не как функцию пространства, а функцию 1 / пространство. Информация упорядочена от самой низкой до самой высокой частоты по диагонали от самой высокой строки и столбца начала координат. Например, здесь .
Для сжатия изображения вы можете преобразовать изображение, отбросить некоторое количество высокочастотных слагаемых и инвертировать обратное преобразование обратно в изображение, которое имеет меньше деталей, чем оригинал. Хотя он преобразуется обратно в изображение того же размера (с удаленными терминами, замененными на ноль), в частотной области оно занимает меньше места.
Еще один способ взглянуть на это - уменьшить изображение до меньшего размера. Например, если вы попытаетесь уменьшить размер изображения, выбрасывая три из каждых четырех пикселей подряд и три из каждых четырех строк, у вас будет массив размером 1/4, но изображение будет выглядеть ужасно. В большинстве случаев это достигается с помощью 2D-интерполятора, который создает новые пиксели путем усреднения прямоугольных групп пикселей большего изображения. При этом интерполяция имеет эффект, аналогичный выбрасыванию рядов в частотной области, только вычисление выполняется намного быстрее.
Чтобы сделать больше вещей, я буду ссылаться на преобразование Фурье в качестве примера. Любое хорошее обсуждение темы проиллюстрирует, как связаны преобразования Фурье и Косинуса. Преобразование Фурье изображения нельзя рассматривать непосредственно как таковое, поскольку оно состоит из комплексных чисел. Он уже разделен на два вида информации: действительную и мнимую части чисел. Как правило, вы увидите изображения или графики этих. Но более целесообразно (обычно) разделять комплексные числа на их величину и фазовый угол. Это просто взятие комплексного числа на комплексной плоскости и переключение на полярные координаты.
Что касается аудиосигнала, представьте, что объединенные функции sin и косинуса принимают определенную величину в своих аргументах для сдвига функции вперед и назад (как часть представления сигнала). Для изображения информация о фазе описывает, как каждый член ряда сдвигается относительно других членов в частотном пространстве. На изображениях края (надеюсь) настолько различны, что они хорошо характеризуются низкочастотными членами в частотной области. Это происходит не потому, что они являются резкими переходами, а потому, что они имеют, например, много черных областей, прилегающих к большему количеству более светлых областей. Рассмотрим одномерный срез ребра. Уровень серого равен нулю, затем повышается и остается там. Визуализируйте синусоидальную волну, которая будет первым приближением, где она пересекает середину сигнального перехода в sin (0). Фазовый угол этого члена соответствует смещению в пространстве изображения. Отличная иллюстрация этого доступна здесь . Если вы пытаетесь найти фигуры и можете создать эталонную фигуру, это один из способов их распознать.