Vision и / или Core ML автоматически преобразуют CVPixelBuffer в формат пикселей, который ожидает ваша модель, поэтому вам не нужно об этом беспокоиться.
(Если вы используете Core ML напрямую, я считаю, что пиксельный формат должен быть BGRA или ARGB, но Vision кажется более гибким.)
См. Пример приложения CheckInputImage из моего репозитория Core ML Survival Guide *1006*, который позволяет дважды проверить, что изображение, видимое Vision / Core ML, действительно соответствует вашим ожиданиям.