На вычислительной карте 1.3 с графическим процессором cuda,
мы запускаем следующий код
for(int i=1;i<20;++i)
kernelrun<<<30,320>>>(...);
мы знаем, что каждый SM имеет 8 SP и может запускать 1024 потока,
Таким образом, в Tesla C1060 имеется 30 SM, которые могут одновременно выполнять 30 * 1024 потоков.
Согласно данному коду, сколько потоков может работать одновременно?
Если существует 48 регистров для ядра kernelrun, каковы ограничения для tesla C1060?
с 16384 регистрами и 16 КБ общей памяти?
Поскольку параллельное выполнение ядра не поддерживается в Tesla C1060, как
мы можем запустить ядро в цикле одновременно? Возможны ли потоки?
только одно одновременное копирование и выполнение движка в tesla C1060?