Каждый пиксель - это функция, которая имеет 3 канала, но есть 2D этих функций.в некотором смысле вы правы, есть больше, чем 2D объекты, но пространственно это 2D.Это важно, потому что операция свертки требует скольжения фильтров по пространственным измерениям.
Точно так же символы можно рассматривать как элементы предложений с функциями вложения 300D.При применении сверток предложения считаются одномерными, поскольку скользящее окно движется только по временному измерению.В этом случае встраивания могут рассматриваться как каналы.
Таким образом, это зависит от того, как вы хотите обработать и интерпретировать последовательность функций.Обычно, когда вовлекается время или пространство, в каждой позиции во времени и пространстве признаки упоминаются как наблюдаемые каналы, в этом случае обычно размерность пространства-времени используется для составления наблюдаемых в значимые единицы.