Question

В настоящее время я пишу матричное умножение на графическом процессоре и хотел бы отладить свой код, но поскольку я не могу использовать printf внутри функции устройства, есть ли что-то еще, что я могу сделать, чтобы увидеть, что происходит внутри этой функции. Это моя текущая функция:

__global__ void MatrixMulKernel(Matrix Ad, Matrix Bd, Matrix Xd){

    int tx = threadIdx.x;
    int ty = threadIdx.y;

    int bx = blockIdx.x;
    int by = blockIdx.y;

    float sum = 0;

    for( int k = 0; k < Ad.width ; ++k){
        float Melement = Ad.elements[ty * Ad.width + k];
        float Nelement = Bd.elements[k * Bd.width + tx];
        sum += Melement * Nelement;
    }

    Xd.elements[ty * Xd.width + tx] = sum;
}

Я хотел бы знать, является ли Ad и Bd тем, чем я думаю, и посмотреть, действительно ли эта функция вызывается.

M. Tibbits · Answer 1 · 05 июля 2011

CUDA теперь поддерживает printf s непосредственно в ядре. Формальное описание см. В Приложении B.16 .

Руководства по программированию CUDA C.

Tom · Answer 2 · 01 февраля 2010

EDIT

Чтобы не вводить людей в заблуждение, как указывает М. Тиббитс, printf доступен в любом графическом процессоре с вычислительной способностью 2.0 и выше.

Конец редактирования

У вас есть выбор:

Используйте отладчик графического процессора, то есть cuda-gdb в Linux или Nexus в Windows
Используйте cuprintf, который доступен для зарегистрированных разработчиков (регистрация здесь )
Вручную скопируйте данные, которые вы хотите увидеть, затем сбросьте этот буфер на хост после завершения работы вашего ядра (не забудьте синхронизировать)

Относительно вашего кода:

Рассмотрите возможность передачи структур Matrix через указатель (т. Е. cudaMemcpy их на устройство, затем передайте указатель на устройство), сейчас у вас не возникнет проблем, но если сигнатура функции станет очень большой, вы можете нажать ограничение в 256 байт
У вас неэффективные чтения из Ad, у вас будет 32-байтовая транзакция в памяти для каждого чтения в Melement - рассмотрите возможность использования общей памяти в качестве промежуточной области (см. Пример transposeNew в SDK)

Juan Leni · Answer 3 · 09 февраля 2010

cuprintf
попробуй Nexus http://developer.nvidia.com/object/nexus.html

кстати ..

использовать разделяемую память
умножить вне цикла
Посмотрите на это: http://www.seas.upenn.edu/~cis665/LECTURES/Lecture11.ppt

Andrei Pokrovsky · Answer 4 · 29 октября 2013

См. Раздел «Форматированный вывод» (в настоящее время B.17) в Руководстве по программированию CUDA C.

http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html

printf внутри функции CUDA global

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

printf внутри функции CUDA __global__

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы

printf внутри функции CUDA global