AFAIK, такого встроенного в OpenCL нет, но вы можете сделать это через хост-API: ищите информацию о профилировании событий в OpenCL.
Вкратце, вам нужно будет создать очередь команд с включенной информацией профилирования, а затем запросить точки времени начала / окончания команды из события, соответствующего интересующему вас ядру:
g_cmd_queue = clCreateCommandQueue(... CL_QUEUE_PROFILING_ENABLE, NULL);
clEnqueueNDRangeKernel(g_cmd_queue, ..., &perf_event);
clWaitForEvents(1, &perf_event);
cl_ulong start = 0, end = 0;
clGetEventProfilingInfo(perf_event, CL_PROFILING_COMMAND_START, sizeof(cl_ulong), &start, NULL);
clGetEventProfilingInfo(perf_event, CL_PROFILING_COMMAND_END, sizeof(cl_ulong), &end, NULL);