Точки останова внутри ядра CUDA __global__ не попадают - PullRequest
0 голосов
/ 10 февраля 2012

Использование Visual Studio 2010. Win 7. Nsight 2.1

#include "cuda.h"
#include "cuda_runtime.h"
#include "device_launch_parameters.h"

// incrementArray.cu
#include <stdio.h>
#include <assert.h>

void incrementArrayOnHost(float *a, int N)
{
  int i;
  for (i=0; i < N; i++) a[i] = a[i]+1.f;
}
__global__ void incrementArrayOnDevice(float *a, int N)
{
  int idx = blockIdx.x*blockDim.x + threadIdx.x;

  int j = idx;
  int i = 2;

  i = i+j; //->breakpoint here

  if (idx<N) a[idx] = a[idx]+1.f; //->breakpoint here
}
int main(void)
{
  float *a_h, *b_h;           // pointers to host memory
  float *a_d;                 // pointer to device memory
  int i, N = 10;
  size_t size = N*sizeof(float);
  // allocate arrays on host
  a_h = (float *)malloc(size);
  b_h = (float *)malloc(size);
  // allocate array on device 
  cudaMalloc((void **) &a_d, size);
  // initialization of host data
  for (i=0; i<N; i++) a_h[i] = (float)i;
  // copy data from host to device
  cudaMemcpy(a_d, a_h, sizeof(float)*N, cudaMemcpyHostToDevice);
  // do calculation on host
  incrementArrayOnHost(a_h, N);
  // do calculation on device:
  // Part 1 of 2. Compute execution configuration
  int blockSize = 4;
  int nBlocks = N/blockSize + (N%blockSize == 0?0:1);
  // Part 2 of 2. Call incrementArrayOnDevice kernel 
  incrementArrayOnDevice <<< nBlocks, blockSize >>> (a_d, N);
  // Retrieve result from device and store in b_h
  cudaMemcpy(b_h, a_d, sizeof(float)*N, cudaMemcpyDeviceToHost);
  // check results
  for (i=0; i<N; i++) assert(a_h[i] == b_h[i]);
  // cleanup
  free(a_h); free(b_h); cudaFree(a_d);

  return 0;
}

Я пытался вставить точки останова, как указано выше, внутри моего global void incrementArrayOnDevice (float * a, int N)но они не работают.

Когда я запускаю debug (f5) в визуальных студиях, я пытался перейти к incrementArrayOnDevice <<< nBlocks, blockSize >>> (a_d, N);но они пропустили бы весь раздел кода ядра.

попытался добавить наблюдение для переменных i и j, но произошла ошибка "CXX0017: Ошибка: символ" i "не найден".

Это нормальная проблема?Может кто-нибудь попробовать свои ПК и сообщить мне, могут ли они достичь контрольных точек?Если вы можете, какая возможная проблема может быть моей?Пожалуйста помоги!(

Ответы [ 2 ]

1 голос
/ 12 февраля 2012

Отладка Nsight отличается от отладки VS.Вы должны использовать отладку Nsight для достижения точек останова ядра.Однако для этого вам понадобятся 2 видеокарты.У вас есть 2 карты на первом месте?Пожалуйста, проверьте

0 голосов
/ 16 февраля 2013

Вы можете отлаживать на одном GPU, но при следующих условиях:

  1. Вы должны использовать 5.0 инструментарий
  2. Вы должны программировать на GPU, который поддерживает 303.xx NForceWare или выше
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...