Question

Я пишу ядро, используя PyCUDA. Мое графическое устройство поддерживает только вычислительные возможности 1.1 (arch sm_11), поэтому я могу использовать только плавающие числа в своем коде. Я приложил немало усилий, чтобы убедиться, что я делаю все с помощью float, но, несмотря на это, в моем коде есть определенная строка, которая продолжает вызывать ошибку компилятора.

кусок кода:

  // Gradient magnitude, so 1 <= x <= width, 1 <= y <= height. 
  if( j > 0 && j < im_width && i > 0 && i < im_height){
    gradient_mag[idx(i,j)] = float(sqrt(x_gradient[idx(i,j)]*x_gradient[idx(i,j)] + y_gradient[idx(i,j)]*y_gradient[idx(i,j)]));
  }

Здесь idx() - вспомогательная функция __device__, которая возвращает линейный индекс на основе индексов пикселей i и j и работает только с целыми числами. Я использую его повсюду, и он нигде больше не дает ошибок, поэтому я сильно подозреваю, что это не idx(). Вызов sqrt() происходит только от стандартных математических функций Си, которые поддерживают числа с плавающей точкой. Все задействованные массивы, x_gradient, y_gradient и gradient_mag, все являются float*, и они являются частью ввода в мою функцию (т.е. объявлены в Python, затем преобразованы в переменные устройства и т. Д.).

Я попытался удалить дополнительный бросок, чтобы плавать в моем коде выше, но безуспешно. Я также пытался сделать что-то совершенно глупое, как это:

 // Gradient magnitude, so 1 <= x <= width, 1 <= y <= height. 
 if( j > 0 && j < im_width && i > 0 && i < im_height){
    gradient_mag[idx(i,j)] = 3.0f; // also tried float(3.0) here
  }

Все эти варианты дают одинаковую ошибку:

 pycuda.driver.CompileError: nvcc said it demoted types in source code it compiled--this is likely not what you want.
 [command: nvcc --cubin -arch sm_11 -I/usr/local/lib/python2.7/dist-packages/pycuda-2011.1.2-py2.7-linux-x86_64.egg/pycuda/../include/pycuda kernel.cu]
 [stderr:
 ptxas /tmp/tmpxft_00004329_00000000-2_kernel.ptx, line 128; warning : Double is not supported. Demoting to float
 ]

Есть идеи? Я отладил много ошибок в своем коде и надеялся заставить его работать сегодня вечером, но это оказалось ошибкой, которую я не могу понять.

Добавлено - Вот усеченная версия ядра, которая выдает ту же ошибку, что и выше, на моем компьютере.

 every_pixel_hog_kernel_source = \
 """
 #include <math.h>
 #include <stdio.h>

 __device__ int idx(int ii, int jj){
     return gridDim.x*blockDim.x*ii+jj;
 }

 __device__ int bin_number(float angle_val, int total_angles, int num_bins){ 

     float angle1;   
     float min_dist;
     float this_dist;
     int bin_indx;

     angle1 = 0.0;
     min_dist = abs(angle_val - angle1);
     bin_indx = 0;

     for(int kk=1; kk < num_bins; kk++){
         angle1 = angle1 + float(total_angles)/float(num_bins);
         this_dist = abs(angle_val - angle1);
         if(this_dist < min_dist){
             min_dist = this_dist;
             bin_indx = kk;
         }
     }

     return bin_indx;
 }

 __device__ int hist_number(int ii, int jj){

     int hist_num = 0;

     if(jj >= 0 && jj < 11){ 
         if(ii >= 0 && ii < 11){ 
             hist_num = 0;
         }
         else if(ii >= 11 && ii < 22){
             hist_num = 3;
         }
         else if(ii >= 22 && ii < 33){
             hist_num = 6;
         }
     }
     else if(jj >= 11 && jj < 22){
         if(ii >= 0 && ii < 11){ 
             hist_num = 1;
         }
         else if(ii >= 11 && ii < 22){
             hist_num = 4;
         }
         else if(ii >= 22 && ii < 33){
             hist_num = 7;
         }
     }
     else if(jj >= 22 && jj < 33){
         if(ii >= 0 && ii < 11){ 
             hist_num = 2;
         }
         else if(ii >= 11 && ii < 22){
             hist_num = 5;
         }
         else if(ii >= 22 && ii < 33){
             hist_num = 8;
         }
     }

     return hist_num;
 }

  __global__ void every_pixel_hog_kernel(float* input_image, int im_width, int im_height, float* gaussian_array, float* x_gradient, float* y_gradient, float* gradient_mag, float* angles, float* output_array)
  {    
      /////
      // Setup the thread indices and linear offset.
      /////
      int i = blockDim.y * blockIdx.y + threadIdx.y;
      int j = blockDim.x * blockIdx.x + threadIdx.x;
      int ang_limit = 180;
      int ang_bins = 9;
      float pi_val = 3.141592653589f; //91

      /////
      // Compute a Gaussian smoothing of the current pixel and save it into a new image array
      // Use sync threads to make sure everyone does the Gaussian smoothing before moving on.
      /////
      if( j > 1 && i > 1 && j < im_width-2 && i < im_height-2 ){

            // Hard-coded unit standard deviation 5-by-5 Gaussian smoothing filter.
            gaussian_array[idx(i,j)] = float(1.0/273.0) *(
            input_image[idx(i-2,j-2)] + float(4.0)*input_image[idx(i-2,j-1)] + float(7.0)*input_image[idx(i-2,j)] + float(4.0)*input_image[idx(i-2,j+1)] + input_image[idx(i-2,j+2)] + 
            float(4.0)*input_image[idx(i-1,j-2)] + float(16.0)*input_image[idx(i-1,j-1)] + float(26.0)*input_image[idx(i-1,j)] + float(16.0)*input_image[idx(i-1,j+1)] + float(4.0)*input_image[idx(i-1,j+2)] +
            float(7.0)*input_image[idx(i,j-2)] + float(26.0)*input_image[idx(i,j-1)] + float(41.0)*input_image[idx(i,j)] + float(26.0)*input_image[idx(i,j+1)] + float(7.0)*input_image[idx(i,j+2)] +
            float(4.0)*input_image[idx(i+1,j-2)] + float(16.0)*input_image[idx(i+1,j-1)] + float(26.0)*input_image[idx(i+1,j)] + float(16.0)*input_image[idx(i+1,j+1)] + float(4.0)*input_image[idx(i+1,j+2)] +
            input_image[idx(i+2,j-2)] + float(4.0)*input_image[idx(i+2,j-1)] + float(7.0)*input_image[idx(i+2,j)] + float(4.0)*input_image[idx(i+2,j+1)] + input_image[idx(i+2,j+2)]);
     }
     __syncthreads();

     /////
     // Compute the simple x and y gradients of the image and store these into new images
     // again using syncthreads before moving on.
     /////

     // X-gradient, ensure x is between 1 and width-1
     if( j > 0 && j < im_width){
         x_gradient[idx(i,j)] = float(input_image[idx(i,j)] - input_image[idx(i,j-1)]);
     }
     else if(j == 0){
         x_gradient[idx(i,j)] = float(0.0);
     }

    // Y-gradient, ensure y is between 1 and height-1
    if( i > 0 && i < im_height){
         y_gradient[idx(i,j)] = float(input_image[idx(i,j)] - input_image[idx(i-1,j)]);
    }
    else if(i == 0){
        y_gradient[idx(i,j)] = float(0.0);
    }
    __syncthreads();

    // Gradient magnitude, so 1 <= x <= width, 1 <= y <= height. 
    if( j < im_width && i < im_height){

        gradient_mag[idx(i,j)] = float(sqrt(x_gradient[idx(i,j)]*x_gradient[idx(i,j)] + y_gradient[idx(i,j)]*y_gradient[idx(i,j)]));
    }
    __syncthreads();

    /////
    // Compute the orientation angles
    /////
    if( j < im_width && i < im_height){
        if(ang_limit == 360){
            angles[idx(i,j)] = float((atan2(y_gradient[idx(i,j)],x_gradient[idx(i,j)])+pi_val)*float(180.0)/pi_val);
        }
        else{
            angles[idx(i,j)] = float((atan( y_gradient[idx(i,j)]/x_gradient[idx(i,j)] )+(pi_val/float(2.0)))*float(180.0)/pi_val);
        }
    }
    __syncthreads();

    // Compute the HoG using the above arrays. Do so in a 3x3 grid, with 9 angle bins for each grid.
    // forming an 81-vector and then write this 81 vector as a row in the large output array.

    int top_bound, bot_bound, left_bound, right_bound, offset;
    int window = 32;

    if(i-window/2 > 0){
        top_bound = i-window/2;
        bot_bound = top_bound + window;
    }
    else{
        top_bound = 0;
        bot_bound = top_bound + window;
    }

    if(j-window/2 > 0){
        left_bound = j-window/2;
        right_bound = left_bound + window;
    }
    else{
        left_bound = 0;
        right_bound = left_bound + window;
    }

    if(bot_bound - im_height > 0){
        offset = bot_bound - im_height;
        top_bound = top_bound - offset;
        bot_bound = bot_bound - offset;
    }

    if(right_bound - im_width > 0){
        offset = right_bound - im_width;
        right_bound = right_bound - offset;
        left_bound = left_bound - offset;
    }

    int counter_i = 0;
    int counter_j = 0;
    int bin_indx, hist_indx, glob_col_indx, glob_row_indx;
    int row_width = 81; 

    for(int pix_i = top_bound; pix_i < bot_bound; pix_i++){
        for(int pix_j = left_bound; pix_j < right_bound; pix_j++){

            bin_indx = bin_number(angles[idx(pix_i,pix_j)], ang_limit, ang_bins);
            hist_indx = hist_number(counter_i,counter_j);

            glob_col_indx = ang_bins*hist_indx + bin_indx;
            glob_row_indx = idx(i,j);

            output_array[glob_row_indx*row_width + glob_col_indx] = float(output_array[glob_row_indx*row_width + glob_col_indx] + float(gradient_mag[idx(pix_i,pix_j)]));


            counter_j = counter_j + 1; 
        }
        counter_i = counter_i + 1;
        counter_j = 0;
    }

}
"""

Mead · Answer 1 · 30 ноября 2011

Вот безошибочный случай использования двойных чисел:

 gaussian_array[idx(i,j)] = float(1.0/273.0) *

Видите, что двойные литералы делятся?

Но на самом деле, используйте литералы с плавающей точкой вместо двойных литералов, передаваемых с плавающей точкой - броскинекрасиво, и я полагаю, что они будут скрывать ошибки, как это.

------- Редактировать 1 / Декабрь ---------

Во-первых, благодаря @ CygnusX1, постоянное сворачивание предотвратило бы этот расчет - я даже не думал об этом.

Я пытался воспроизвести среду ошибки: я установил CUDA SDK 3.2 (который @EMSупомянул, что они, кажется, используют в лаборатории), компилируя усеченную версию ядра выше, и действительно, nvopencc действительно оптимизировал вышеприведенные вычисления далеко (спасибо @ CygnusX1), и действительно, он не использовал удвоения где-либо в сгенерированном коде PTX.Кроме того, ptxas не дал ошибку, полученную @EMS.Исходя из этого, я подумал, что проблема не в самом коде every_pixel_hog_kernel_source, возможно, в PyCUDA.Однако использование PyCUDA 2011.1.2 и компиляция с этим все еще не выдает предупреждение, как в вопросе @ EMS.Я могу получить ошибку в вопросе, однако, введя двойное вычисление, например, удалив приведение из gaussian_array[idx(i,j)] = float(1.0/273.0) *

Чтобы попасть в тот же случай с питоном, выдает ошибку следующее:

import pycuda.driver as cuda
from pycuda.compiler import compile

x=compile("""put your truncated kernel code here""",options=[],arch="sm_11",keep=True)

Это не выдает ошибку в моих обстоятельствах, поэтому есть вероятность, что я просто не смогу повторить ваш результат.Тем не менее, я могу дать несколько советов.При использовании compile (или SourceModule), если вы используете keep=True, python распечатает папку, в которой генерируется ptx-файл, непосредственно перед отображением сообщения об ошибке.Затем, если вы можете проверить файл ptx, сгенерированный в этой папке, и посмотреть, где появляется .f64, это должно дать некоторое представление о том, что обрабатывается как двойное - однако, расшифровать какой код в вашем исходном ядре сложно - иметьПростейший пример, который приводит к вашей ошибке, поможет вам.

talonmies · Answer 2 · 30 ноября 2011

Ваша проблема здесь:

angle1 = 0.0;

0.0 - константа двойной точности. 0.0f - константа с одинарной точностью.

CygnusX1 · Answer 3 · 29 ноября 2011

(комментарий, а не ответ, но он слишком велик, чтобы поместить его в качестве комментария)

Не могли бы вы предоставить код PTX в строке, где происходит ошибка?

Я попытался скомпилировать простое ядро, используя предоставленный вами код:

__constant__ int im_width;
__constant__ int im_height;

__device__ int idx(int i,int j) {
    return i+j*im_width;
}

__global__ void kernel(float* gradient_mag, float* x_gradient, float* y_gradient) {
    int i = threadIdx.x;
    int j = threadIdx.y;
  // Gradient magnitude, so 1 <= x <= width, 1 <= y <= height.
  if( j > 0 && j < im_width && i > 0 && i < im_height){
    gradient_mag[idx(i,j)] = float(sqrt(x_gradient[idx(i,j)]*x_gradient[idx(i,j)] + y_gradient[idx(i,j)]*y_gradient[idx(i,j)]));
  }
}

с помощью:

nvcc.exe -m32 -maxrregcount = 32 -gencode = arch = compute_11, code = \ "sm_11, compute_11 \" --compile -o "Debug \ main.cu.obj" main.cu

нет ошибок.

Использование бета-компилятора CUDA 4.1

Обновление

Я попытался скомпилировать ваш новый код (я работаю в CUDA / C ++, а не в PyCUDA, но это не должно иметь значения). Также не уловил ошибку! Используются CUDA 4.1 и CUDA 4.0. Какая у вас версия установки CUDA?

C:\>nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2011 NVIDIA Corporation
Built on Wed_Oct_19_23:13:02_PDT_2011
Cuda compilation tools, release 4.1, V0.2.1221

Cuda понижение двойной до плавающей ошибки, несмотря на отсутствие двойных в коде

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Cuda понижение двойной до плавающей ошибки, несмотря на отсутствие двойных в коде

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы