OpenCL clEnqueueReadBufferRect работает для типа int, но не для типа данных double - PullRequest
1 голос
/ 04 апреля 2019

Мне нужно скопировать некоторые данные с определенного шага с устройства на хост.У меня уже есть решение, использующее простое ядро ​​OpenCL, но для определенных обстоятельств я хотел бы иметь возможность не использовать ядро, а сделать пошаговую копию, используя clEnqueueReadBufferRect (или его вариант c ++ cl :: CommandQueue :: enqueueReadBufferRect).

Я написал небольшую тестовую задачу (см. Ниже скомпилируемый код), которая копирует каждую вторую запись из массива длиной 10 и последовательно сохраняет ее в массиве размера 5.

#include <iostream>
#define __CL_ENABLE_EXCEPTIONS
#include <CL/cl.hpp>

int main(int argc, char** argv) {

    // Set up OpenCL environment

    cl::Context context;
    cl::Device device;
    cl::CommandQueue queue;

    try {

        std::vector<cl::Platform> all_platforms;
        cl::Platform::get(&all_platforms);
        cl::Platform tauschcl_platform = all_platforms[0];

        std::vector<cl::Device> all_devices;
        tauschcl_platform.getDevices(CL_DEVICE_TYPE_ALL, &all_devices);
        device = all_devices[0];

        std::cout << "Using OpenCL device " << device.getInfo<CL_DEVICE_NAME>() << std::endl;

        // Create context and queue
        context = cl::Context({device});
        queue = cl::CommandQueue(context,device);

    } catch(cl::Error &error) {
        std::cout << "OpenCL exception caught: " << error.what() << " (" << error.err() << ")" << std::endl;
        return 1;
    }


    /*********************/
    // Thus works with int
    // but not float nor double
    typedef int buf_t;
    /*********************/

    // Start buffer, length 10, filled with integers from 1 to 10
    buf_t *buf1 = new buf_t[10]{};
    for(int i = 0; i < 10; ++i)
        buf1[i] = i+1;

    // create an opencl buffer with same content
    cl::Buffer clbuf(queue, &buf1[0], &buf1[10], true);

    // receiving buffer of length 5, initialised to zero
    buf_t *buf2 = new buf_t[5]{};

    // buffer/host offsets are both (0,0,0)
    cl::size_t<3> buffer_offset;
    buffer_offset[0] = 0; buffer_offset[1] = 0; buffer_offset[2] = 0;
    cl::size_t<3> host_offset;
    host_offset[0] = 0; host_offset[1] = 0; host_offset[2] = 0;

    // We copy 5 values (with stride of 2)
    cl::size_t<3> region;
    region[0] = 1; region[1] = 5; region[2] = 1;

    try {
        queue.enqueueReadBufferRect(clbuf,
                                    CL_TRUE,
                                    buffer_offset,
                                    host_offset,
                                    region,
                                    2*sizeof(buf_t),    // buffer stride of 2
                                    0,
                                    1*sizeof(buf_t),    // host stride of 1
                                    0,
                                    buf2);
    } catch(cl::Error &error) {
        std::cout << "OpenCL exception caught: " << error.what() << " (" << error.err() << ")" << std::endl;
        return 1;
    }

    // print result
    for(int i = 0; i < 5; ++i)
        std::cout << "#" << i << " = " << buf2[i] << " --> should be " << 2*i+1 << std::endl;

    return 0;

}

Этот код прекрасно работает при использовании int в качестве типа данных.Но изменение int в строке 38 на float или double, в общем-то, ничего не дает, принимающий массив хостов buf2 по-прежнему содержит все нули.Из того, что я могу найти, нет никаких ограничений на clEnqueueReadBufferRect относительно того, с каким типом данных он может работать.

Я тестировал приведенный выше код на Intel и NVIDIA, и на обоих он ведет себя одинаково.Я довольно озадачен и не знаю, что еще попытаться решить это.У кого-нибудь есть идеи?

1 Ответ

1 голос
/ 05 апреля 2019

Это на некоторое время озадачило меня, но я думаю, что у меня есть решение:

В соответствии с этим 1.2 официальной ссылкой *:

регион

  • (ширина, высота, глубина) в байтах двумерного или трехмерного прямоугольника для чтения или записи.Для двухмерной копии прямоугольника значение глубины, заданное region [2], должно быть 1.

Но это в лучшем случае вводит в заблуждение и не работает вообще.Правильный формат этого параметра, указанный в официальной спецификации 1.2 [страница 77]:

region определяет (ширина в байтах, высота встроки, глубина в срезах) 2D или 3D прямоугольника для чтения или записи.Для двухмерной копии прямоугольника значение глубины, заданное region [2], должно быть 1. Значения в region не могут быть 0.

И действительно, region[0] = 1*sizeof(buf_t); region[1] = 5; region[2] = 1; делает код работающим правильно на моем Intel 630HDи графические процессоры NVIDIA 1050TI.

* 2.0 Официальная ссылка показывает правильный формат.2.1 тоже, но я думаю, что 1.2 интенсивно используется и, возможно, следует исправить.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...