Как получить компонент Y из CMSampleBuffer, полученного в результате AVCaptureSession? - PullRequest
10 голосов
/ 03 ноября 2010

Привет, я пытаюсь получить доступ к необработанным данным с камеры iphone с помощью AVCaptureSession.Я следую инструкциям Apple ( ссылка здесь ).

Необработанные данные из сэмплебуфера представлены в формате YUV (я прав здесь относительно формата необработанных видеокадров ??), какнепосредственно получить данные для компонента Y из необработанных данных, хранящихся в выборочном буфере.

Ответы [ 4 ]

20 голосов
/ 03 ноября 2010

При настройке AVCaptureVideoDataOutput, который возвращает необработанные кадры камеры, вы можете установить формат кадров, используя следующий код:

[videoOutput setVideoSettings:[NSDictionary dictionaryWithObject:[NSNumber numberWithInt:kCVPixelFormatType_32BGRA] forKey:(id)kCVPixelBufferPixelFormatTypeKey]];

В этом случае указывается формат пикселей BGRA (я использовалэто для соответствия формату цвета для текстуры OpenGL ES).Каждый пиксель в этом формате имеет один байт для синего, зеленого, красного и альфа-канала в указанном порядке.Это позволяет легко извлекать цветовые компоненты, но вы жертвуете небольшой производительностью, поскольку вынуждены выполнять преобразование из собственного цветового пространства YUV для камеры.

Другие поддерживаемые цветовые пространства: kCVPixelFormatType_420YpCbCr8BiPlanarVideoRange и kCVPixelFormatType_420YpCbCr8BiPlanarFullRangeна более новых устройствах и kCVPixelFormatType_422YpCbCr8 на iPhone 3G.Суффикс VideoRange или FullRange просто указывает, возвращаются ли байты между 16 - 235 для Y и 16 - 240 для УФ или полными 0 - 255. Для каждого компонента.

Я считаю, что цветовое пространство по умолчанию используетсяэкземпляром AVCaptureVideoDataOutput является плоское цветовое пространство YUV 4: 2: 0 (за исключением iPhone 3G, в котором чередуется YUV 4: 2: 2).Это означает, что в видеокадре содержатся две плоскости данных изображения, причем Y-плоскость идет первой.Для каждого пикселя в вашем получающемся изображении есть один байт для значения Y в этом пикселе.

Вы могли бы получить эти необработанные данные Y, реализовав что-то подобное в обратном вызове делегата:

- (void)captureOutput:(AVCaptureOutput *)captureOutput didOutputSampleBuffer:(CMSampleBufferRef)sampleBuffer fromConnection:(AVCaptureConnection *)connection
{
    CVImageBufferRef pixelBuffer = CMSampleBufferGetImageBuffer(sampleBuffer);
    CVPixelBufferLockBaseAddress(pixelBuffer, 0);

    unsigned char *rawPixelBase = (unsigned char *)CVPixelBufferGetBaseAddress(pixelBuffer);

    // Do something with the raw pixels here

    CVPixelBufferUnlockBaseAddress(pixelBuffer, 0);
}

Затем можно определить местоположение в данных кадра для каждой координаты X, Y на изображении и вытащить байт, соответствующий компоненту Y с этой координатой.

Пример Apple FindMyiCone с WWDC 2010 (доступно вместе с видео) показывает, как обрабатывать необработанные данные BGRA из каждого кадра.Я также создал пример приложения, в котором вы можете загрузить код для здесь , который выполняет отслеживание цветных объектов с использованием живого видео с камеры iPhone.Оба показывают, как обрабатывать необработанные данные пикселей, но ни один из них не работает в цветовом пространстве YUV.

18 голосов
/ 05 ноября 2010

В дополнение к ответу Брэда и вашему собственному коду вы должны учесть следующее:

Поскольку ваше изображение имеет две отдельные плоскости, функция CVPixelBufferGetBaseAddress не будет возвращать базовый адресплоскости, а скорее базовый адрес дополнительной структуры данных.Возможно, это связано с текущей реализацией, когда вы получаете адрес, достаточно близкий к первой плоскости, чтобы вы могли видеть изображение.Но это причина того, что он сдвинут и мусор вверху слева.Правильный способ получения первой плоскости:

unsigned char *rowBase = CVPixelBufferGetBaseAddressOfPlane(pixelBuffer, 0);

Строка на изображении может быть длиннее ширины изображения (из-за округления).Вот почему есть отдельные функции для получения ширины и количества байтов в строке.У вас нет этой проблемы в данный момент.Но это может измениться со следующей версией iOS.Поэтому ваш код должен быть:

int bufferHeight = CVPixelBufferGetHeight(pixelBuffer);
int bufferWidth = CVPixelBufferGetWidth(pixelBuffer);
int bytesPerRow = CVPixelBufferGetBytesPerRowOfPlane(pixelBuffer, 0);
int size = bufferHeight * bytesPerRow ;

unsigned char *pixel = (unsigned char*)malloc(size);

unsigned char *rowBase = CVPixelBufferGetBaseAddressOfPlane(pixelBuffer, 0);
memcpy (pixel, rowBase, size);

Обратите также внимание, что ваш код с треском провалится на iPhone 3G.

7 голосов
/ 02 ноября 2011

Если вам нужен только канал яркости, я рекомендую не использовать формат BGRA, так как он идет с конвертацией.Apple предлагает использовать BGRA, если вы делаете рендеринг, но он вам не нужен для извлечения информации о яркости.Как уже упоминал Брэд, наиболее эффективным форматом является собственный формат YUV для камеры.

Однако извлечь нужные байты из буфера семплов немного сложнее, особенно в отношении iPhone 3G с его чередованным форматом YUV 422.Итак, вот мой код, который отлично работает с iPhone 3G, 3GS, iPod Touch 4 и iPhone 4S.

#pragma mark -
#pragma mark AVCaptureVideoDataOutputSampleBufferDelegate Methods
#if !(TARGET_IPHONE_SIMULATOR)
- (void)captureOutput:(AVCaptureOutput *)captureOutput didOutputSampleBuffer:(CMSampleBufferRef)sampleBuffer fromConnection:(AVCaptureConnection *)connection;
{
    // get image buffer reference
    CVImageBufferRef imageBuffer = CMSampleBufferGetImageBuffer(sampleBuffer);

    // extract needed informations from image buffer
    CVPixelBufferLockBaseAddress(imageBuffer, 0);
    size_t bufferSize = CVPixelBufferGetDataSize(imageBuffer);
    void *baseAddress = CVPixelBufferGetBaseAddress(imageBuffer);
    CGSize resolution = CGSizeMake(CVPixelBufferGetWidth(imageBuffer), CVPixelBufferGetHeight(imageBuffer));

    // variables for grayscaleBuffer 
    void *grayscaleBuffer = 0;
    size_t grayscaleBufferSize = 0;

    // the pixelFormat differs between iPhone 3G and later models
    OSType pixelFormat = CVPixelBufferGetPixelFormatType(imageBuffer);

    if (pixelFormat == '2vuy') { // iPhone 3G
        // kCVPixelFormatType_422YpCbCr8     = '2vuy',    
        /* Component Y'CbCr 8-bit 4:2:2, ordered Cb Y'0 Cr Y'1 */

        // copy every second byte (luminance bytes form Y-channel) to new buffer
        grayscaleBufferSize = bufferSize/2;
        grayscaleBuffer = malloc(grayscaleBufferSize);
        if (grayscaleBuffer == NULL) {
            NSLog(@"ERROR in %@:%@:%d: couldn't allocate memory for grayscaleBuffer!", NSStringFromClass([self class]), NSStringFromSelector(_cmd), __LINE__);
            return nil; }
        memset(grayscaleBuffer, 0, grayscaleBufferSize);
        void *sourceMemPos = baseAddress + 1;
        void *destinationMemPos = grayscaleBuffer;
        void *destinationEnd = grayscaleBuffer + grayscaleBufferSize;
        while (destinationMemPos <= destinationEnd) {
            memcpy(destinationMemPos, sourceMemPos, 1);
            destinationMemPos += 1;
            sourceMemPos += 2;
        }       
    }

    if (pixelFormat == '420v' || pixelFormat == '420f') {
        // kCVPixelFormatType_420YpCbCr8BiPlanarVideoRange = '420v', 
        // kCVPixelFormatType_420YpCbCr8BiPlanarFullRange  = '420f',
        // Bi-Planar Component Y'CbCr 8-bit 4:2:0, video-range (luma=[16,235] chroma=[16,240]).  
        // Bi-Planar Component Y'CbCr 8-bit 4:2:0, full-range (luma=[0,255] chroma=[1,255]).
        // baseAddress points to a big-endian CVPlanarPixelBufferInfo_YCbCrBiPlanar struct
        // i.e.: Y-channel in this format is in the first third of the buffer!
        int bytesPerRow = CVPixelBufferGetBytesPerRowOfPlane(imageBuffer, 0);
        baseAddress = CVPixelBufferGetBaseAddressOfPlane(imageBuffer,0);
        grayscaleBufferSize = resolution.height * bytesPerRow ;
        grayscaleBuffer = malloc(grayscaleBufferSize);
        if (grayscaleBuffer == NULL) {
            NSLog(@"ERROR in %@:%@:%d: couldn't allocate memory for grayscaleBuffer!", NSStringFromClass([self class]), NSStringFromSelector(_cmd), __LINE__);
            return nil; }
        memset(grayscaleBuffer, 0, grayscaleBufferSize);
        memcpy (grayscaleBuffer, baseAddress, grayscaleBufferSize); 
    }

    // do whatever you want with the grayscale buffer
    ...

    // clean-up
    free(grayscaleBuffer);
}
#endif
2 голосов
/ 27 апреля 2017

Это просто кульминация тяжелой работы всех остальных, выше и в других потоках, преобразованной в swift 3 для тех, кто считает это полезным.

func captureOutput(_ captureOutput: AVCaptureOutput!, didOutputSampleBuffer sampleBuffer: CMSampleBuffer!, from connection: AVCaptureConnection!) {
    if let pixelBuffer = CMSampleBufferGetImageBuffer(sampleBuffer) {
        CVPixelBufferLockBaseAddress(pixelBuffer, CVPixelBufferLockFlags.readOnly)

        let pixelFormatType = CVPixelBufferGetPixelFormatType(pixelBuffer)
        if pixelFormatType == kCVPixelFormatType_420YpCbCr8BiPlanarFullRange
           || pixelFormatType == kCVPixelFormatType_420YpCbCr8BiPlanarVideoRange {

            let bufferHeight = CVPixelBufferGetHeight(pixelBuffer)
            let bufferWidth = CVPixelBufferGetWidth(pixelBuffer)

            let lumaBytesPerRow = CVPixelBufferGetBytesPerRowOfPlane(pixelBuffer, 0)
            let size = bufferHeight * lumaBytesPerRow
            let lumaBaseAddress = CVPixelBufferGetBaseAddressOfPlane(pixelBuffer, 0)
            let lumaByteBuffer = unsafeBitCast(lumaBaseAddress, to:UnsafeMutablePointer<UInt8>.self)

            let releaseDataCallback: CGDataProviderReleaseDataCallback = { (info: UnsafeMutableRawPointer?, data: UnsafeRawPointer, size: Int) -> () in
                // https://developer.apple.com/reference/coregraphics/cgdataproviderreleasedatacallback
                // N.B. 'CGDataProviderRelease' is unavailable: Core Foundation objects are automatically memory managed
                return
            }

            if let dataProvider = CGDataProvider(dataInfo: nil, data: lumaByteBuffer, size: size, releaseData: releaseDataCallback) {
                let colorSpace = CGColorSpaceCreateDeviceGray()
                let bitmapInfo = CGBitmapInfo(rawValue: CGImageAlphaInfo.noneSkipFirst.rawValue)

                let cgImage = CGImage(width: bufferWidth, height: bufferHeight, bitsPerComponent: 8, bitsPerPixel: 8, bytesPerRow: lumaBytesPerRow, space: colorSpace, bitmapInfo: bitmapInfo, provider: dataProvider, decode: nil, shouldInterpolate: false, intent: CGColorRenderingIntent.defaultIntent)

                let greyscaleImage = UIImage(cgImage: cgImage!)
                // do what you want with the greyscale image.
            }
        }

        CVPixelBufferUnlockBaseAddress(pixelBuffer, CVPixelBufferLockFlags.readOnly)
    }
}
...