Недавно я прочитал книгу Профессиональное программирование на CUDA C и обнаружил следующую часть кодирования, которую я не до конца понимаю.
Я запутался в последней части кодирования, которая касается развертывающейся деформации.Я знаю, что эта часть кода пытается уменьшить потребление цикла и время вызова _syncthreads()
.Тем не менее, я не понимаю, как это может убедиться в порядке операции добавления.Например, я думаю, что все темы должны делать vsmem[tid] = vsmem[tid + 16]
после vsmem[tid] = vsmem[tid + 32]
.Я не знаю, как в этом убедиться.Кажется, что нет синхронизирующих потоков.