У меня странная проблема .. Я написал код CUDA, который корректно выполняется в эмуляции, и все результаты отображаются .. однако при выполнении на аппаратном обеспечении "G210" .. результаты в памяти результатов всегда равны 0
Я передаю два вектора в ядро, один со случайными переменными, другой инициализируется нулем, код копирует первый вектор в общую память, выполняет некоторые операции обмена и другие операции, а затем записывает результаты на второй вектор один с начальными 0)
Я использую двойную точность, используется флаг -arch sm13, все выделения памяти также используют sizeof (double) ..
Я проверил, вызывается ли ядро, оно работает .. так что никаких проблем здесь ...
cudaMemCpy не имеет проблем ..
в чем может быть проблема .. :( почему бы работать в эмуляции, а не на HW
Я совсем запутался .. есть идеи?