Я использую clang для генерации IR LLVM для ядер Nvidia OpenCL и Cuda, которые я хочу впоследствии...
Я пытаюсь скомпилировать CUDA с помощью clang , но код, который я пытаюсь скомпилировать, зависит...
Пытаюсь сделать простой код, который добавит V1 (вектор) с V2 и сохранит значение в V3. Это работа...
Я строю проект с кодом CUDA, используя последний CMake, который имеет встроенную поддержку CUDA...
Насколько я понимаю, CUDA 10.1 удалила инструкции shfl: PTX ISA версии 6.4 удаляет следующие...
Я не нашел никаких сведений о максимальном размере источника CUDA PTX или скорости его выполнения....
Я работаю над проектом, и мне нужно сделать 3 операнда логической операции с типами данных uint64_t
Я хочу поднять x до степени y в ptx. У Nvidia есть функция ex2 , которая вычисляет 2 ^ x и lg2 ,...
при компиляции файла cuda: nvcc -arch=sm_61 -std=c++11 -Xptxas -v,-warn-spills --use_fast_math...
Очень простая функция cuda __device__ __device__ __noinline__ int add(int a, int b) { return a + b;...
Предположим, у меня есть простой загрузчик, выполняющий некоторые инструкции x86, и я хочу иметь...
В CUDA, как я могу определить, была ли моя последняя целочисленная арифметическая операция...
Рекомендуете ли вы прочитать PTX-код вашего ядра, чтобы узнать, как оптимизировать ваши ядра? Один...
Предположим, у меня есть код, который позволяет пользователю передать threads_per_block для вызова...
Я понимаю, что графические процессоры Fermi поддерживают предварительную выборку в кэш L1 или L2....
Я хочу использовать ассемблерный код в коде CUDA C, чтобы сократить дорогостоящие исполнения, как...